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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 目 然 科学 的 
各 个 领域 取得 了 区 断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 目 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教 材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson, 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 杜 选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. 
Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指导 ， 还 不 套 劳 闸 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 从 书 ” 已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 
的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 
深化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 草 公 司 欢 迎 老 师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com == 
电子 邮件 : hzjsj@hzbook.com 3 E 
联系 电话 : (010) 88379604 
联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 ] 号 华章 教育 


邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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近 十 年 ， 我 国 高 性 能 计算 机 的 发 展 突飞猛进 ， 最 近 “ 天 河 二 号 ”连续 六 次 夺 得 全 球 超 算 
TOP 500 排行 榜 第 一 ， 标 志 着 我 国 硬件 的 发 展 已 经 达到 国际 先进 水 平 。 然 而 ， 在 高 性 能 软件 
方面 ， 我 国 至 今 未 获得 过 Gordon Bell 奖 这 一 超 算 应 用 大 奖 ， 并 行 应 用 的 发 展 整体 上 仍然 落 
后 于 发 达 国 家 。 我 国 高 性 能 计算 学 术 界 和 产业 界 早已 充分 认识 到 这 一 问题 ， 多 年 来 已 设立 众 
多 相关 研究 项 目 并 取得 了 一 系列 重要 研究 成 果 ， 与 国外 先进 水 平 的 差距 也 在 逐步 缩小 。 

本 书 由 来 自 工业 界 和 学 术 界 的 众多 一 流 科 研 人 员 共 同 编写 ， 不 仅 包 括 大 量 不 同 的 实际 并 
行 应 用 的 优化 经 验 ， 例 如 NN 体 问 题 、 量 子 化 学 、 流 体力 学 以 及 深度 学 习 等 ， 还 包括 一 般 性 
方法 ， 例 如 SIMD 、OpenCL 、 文 件 系统 以 及 并 发 调度 等 。 这 些 方法 多 为 最 新 硬件 架构 上 的 
研究 成 果 ， 例 如 GPU 和 Xeon Phi。 此 外 ， 本 书 配备 大 量程 序 代 码 实例 ， 方便 读者 掌握 相关 
技巧 。 总 之 ， 本 书 作者 通过 自己 在 高 性 能 计算 领域 多 年 的 实际 编程 和 优化 经 验 ， 选 取 最 为 关 
键 和 实用 的 优化 技术 进行 讲解 ， 可 供 相关 领域 的 科研 人 员 参 考 。 

我 们 在 阅读 了 本 书 英文 版 后 ， 感 觉 本 书 有 以 下 几 个 特色 : 首先 ， 本 书 由 长 期 在 一 线 从 事 
高 性 能 应 用 开发 和 优化 的 专家 编写 ， 具 有 较 强 的 实用 性 ; 其 次 ， 本 书 覆 盖 许 多 不 同 的 高 性 能 
计算 应 用 领域 ， 范 围 十 分 广泛 ; 再 次 ， 本 书 大 部 分 应 用 涉及 在 最 新 Intel Xeon Phi 协 处 理 器 
上 的 优化 设计 ， 可 借鉴 性 较 强 ; 最 后 ， 本 书 还 包含 大 量 通用 优化 技术 的 介绍 ， 优 化 方法 也 具 
有 广泛 的 适用 性 。 

基于 以 上 原因 ， 我们 组 织 了 本 书 的 翻译 工作 ， 具 体 分 工 如 下 : 张云泉 负责 推荐 序 、 前 
、 作 者 简介 以 及 第 7、12、14、28 PE, 3X EA SESS 2. 6, 9, 17, 23, 26 章 的 翻译 ， 
Ta ee fA VITS 8. 11, 13, 16, 18, 20, 22 章 的 翻译 ， 李 士 刚 负责 第 3、4、5、21、25、27 
章 的 翻译 ， 曹 婷 负 责 第 1、10、15、19、24 章 的 翻译 ， 最 后 由 张 云 录 研究 员 审 读 全 书 译 稿 ， 
以 保证 翻译 的 前 后 一 致 性 。 

由 于 时 间 人 仓促 ， 加 上 书 中 某 些 术语 目前 没有 统一 译 法 ， 所 以 我 们 对 一 些 术语 采取 了 保留 
其 英文 名 称 的 方法 。 对 书 中 翻译 方面 的 错误 和 不 妥 之 处 ， 有 恳请 广大 读者 不 音 批评 指正 。 
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能 够 为 本 书写 推荐 序 ， 我 感到 非常 荣幸 ， 因 为 Intel Xeon Phi HAHI E — 1 0963] A 
的 “计算 神器 " ， 欧 洲 核 子 研究 中 心 (CERN) 和 高 能 物理 (HEP) 界 都 利用 它 来 满足 巨大 的 
计算 需求 。 当 然 ， 世 界 上 还 有 许多 科学 和 工程 项 目 会 因此 受益 。 本 书 也 包含 了 大 量 可 以 帮助 
程序 员 和 科学 家 学 习 如 何 充分 利用 多 核 和 众 核 处 理 需 的 实例 。 


堆积 如 山 的 计算 需求 : 科学 年 正在 形成 

为 了 能 够 达到 粒子 加 速 器 前 所 未 有 的 高 能 量 范围 ，CERN 在 21 世纪 初 就 开始 为 大 型 强 
子 对 撞 机 (LHC) 做 准备 。 

然而 ， 这 个 项 目 已 经 不 仅仅 是 构建 粒子 加 速 右 。 四 个 新 的 实验 已 经 形成 ， 科 学 家 们 也 都 
在 努力 工作 。ALICE、ATLAS、CMS 和 LHCb 实验 有 数 千 个 物理 学 家 参与 。 无 论 是 探测 器 
的 设计 和 建设 ， 还 是 大 型 软件 重建 框架 的 设计 和 开发 ， 都 需要 处 理 拍 字 节 〈《PB) 级 的 实验 数 
据 。 这 一 切 努 力 都 是 在 寻求 突破 性 的 发 现 。 


开放 的 标准 

对 于 工业 界 ， 标 准 非常 重要 。 投 资 开放 标准 一 直 是 CERN 的 目标 。 我 们 发 现 Intel 的 理 
念 也 是 一 样 。 在 与 HEP 界 数 百 个 科研 机 构 和 实验 室 的 合作 下 ， 我 们 决定 建立 基于 商用 x86 
Wk at AY LHC 计算 网 格 (LCG)。 在 2001 年 ，CERN 成 立 了 开放 实验 室 ， 用 于 调研 可 能 与 
LCG 有 关 的 新 兴 技 术 。 从 一 开始 ，Intel 就 作为 工业 合作 伙伴 加 入 其 中 。 在 开放 实验 室 里 ， 
我 们 进行 的 是 领先 于 时 代 的 研发 工作 ， 其 结果 可 能 是 巨大 的 成 功 ， 也 可 能 是 惨败 。 这 里 曾经 
是 且 目 前 仍 是 一 个 非常 真实 的 研发 实验 室 ! 

对 开放 标准 的 浓厚 兴趣 ， 也 驱使 我 们 鼓励 Intel 将 Intel Xeon Phi 协 处 理 需 移植 到 Linux. 
Intel 成 功 地 实现 了 一 个 基于 Linux 的 非常 稳定 的 系统 ， 并 开放 源 代 码 ， 以 鼓励 创新 。 


HORT XGA 


十 年 前 ，Intel Xeon 处 理 需 系列 很 快 就 演变 成 了 强大 的 多 核 处 理 器 。 这 是 HEP 界 的 天 网 
恨 机 ， 因 为 每 个 物理 事件 〈 碰 撞 后 所 有 粒子 的 状态 ) 都 独立 于 所 有 其 他 物理 事件 ， 所 以 大 量 
的 事件 可 以 采用 细 粒 度 并 行进 行 计 算 。 在 开放 实验 室 ， 我 们 一 直 努 力 确保 每 一 代 新 系统 都 能 
获得 最 佳 的 吞吐 量 。 

在 努力 满足 不 断 增长 的 计算 需求 的 过 程 中 ，Intel 所 取得 的 发 展 为 我 们 提供 了 新 的 选择 。 
在 2008 年 ， 我 们 非常 热衷 于 Intel 的 “Larrabee” 项 目 。 虽 然 最 初 被 宣传 为 图 形 处 理 器 ,但 
其 本 质 上 其 实 是 世界 上 首 个 片上 SMP 集群 。 在 这 个 设备 上 运行 标准 程序 或 程序 内 核 应 该 是 
很 容易 实现 的 。 当 时 没有 硬件 ， 只 有 如 Michael Abrash 的 “ First Look at the Larrabee New 
Instructions" 这样 的 文章 ， 在 这 篇 文章 中 ，Michael Abrash 描述 了 标准 x86 指令 集 的 一 组 非 
常 复杂 的 向 量 扩展 。 在 Intel 实验 室 的 Pradeep Dubey 及 其 团队 的 帮助 下 ， 我 们 通过 模拟 代 
码 片 段 看 到 了 可 嘉 的 成 果 。 可 以 并 行 地 处 于 活跃 状态 的 数 百 个 x86 线程 引起 了 我 们 的 兴趣 。 
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而 第 用 的 编程 模型 、 语 言 和 工具 也 将 被 证 明 仍 具有 巨大 的 价值 。 

Intel 最 初 的 性 能 目标 主要 集中 于 单 精度 (SP) 浮 点 计算 ,这 非常 适合 图 像 处 理 ， 但 对 于 
计算 物理 是 远 远 不 够 的 。 我 们 的 评论 以 及 对 于 高 性 能 双 精 度 (DP) 浮 点 计算 的 需求 ， 在 Intel 
Xeon Phi 产品 中 得 到 了 体现 。 

在 2009 Æ, KRT Intel Hs, 我们 是 第 一 个 拿 到 了 Knights Ferry (KNF) 卡 的 团队 ， 可 以 
想象 我 们 当时 激动 的 心情 。 尽 管 现在 把 我 们 的 所 有 论文 成 果 结 合 在 一 起 为 时 尚 早 ， 但 Intel 
已 经 致力 于 这 样 的 工作 。 与 此 同时 ， 我 们 想 要 将 一 些 LHC 实验 移植 到 KNF E. 重 离子 实验 
ALICE 和 其 他 一 些 重 离子 实验 的 科学 家 们 相互 合作 ， 开 发 了 新 版 软件 “Trackfitter”。 新 的 
代码 根据 传感器 的 坐标 (传感器 在 给 定 的 粒子 碰撞 中 会 发 光 ) 重 构 了 整个 轨迹 ， 也 就 是 重 构 
了 粒子 的 轨迹 。 在 开放 实验 室 ， 我 们 已 经 把 它 移植 到 Intel Xeon 处 理 器 上 ， 因 此 只 用 了 几 个 
小 时 就 将 它 移植 到 KNF 上 了 。 数 天 的 工作 就 可 以 获得 这 样 出 色 的 成 果 ， 我 们 非常 激动 。 


Xeon Phi 的 诞生 : AB, SMHS ISA 


我 宋 笠 地 收 到 邀请 ， 于 2010 年 5 月 在 国际 超级 计算 大 会 CISC) 上 分 享 我 们 早期 的 工 
作成 果 。 在 这 次 会 议 上 ，Intel 数据 中 心 及 互联 系统 事业 部 负责 人 Kirk Skaugen 宣布 Knights 
Corner 为 第 一 个 产品 级 众 核 设备 。 不 久之 后 更 名 为 Intel Xeon Phi， 预 示 着 它 将 是 系列 产品 ， 
就 像 Intel Xeon 一 样 。 

你 可 能 会 问 : 为 什么 我 们 对 此 如 此 热 袁 ? 因为 我 们 在 Intel Xeon Phi 的 设计 中 看 到 了 一 
个 晶 越 的 向 量 指令 集 架 构 (ISA)。 通 过 将 向 量 屏 蔽 寄存 器 与 向 量 数据 寄存 器 分 开 ， 该 架构 能 
够 采用 更 优 的 方式 处 理 程序 中 的 数据 流 和 控制 流 。Intel 一 直 对 业界 的 高 昂 积 极 性 感到 高 兴 ， 
他 们 最 近 发 布 的 AVX-512 指令 集 将 推动 这 个 向 量 架构 也 加 入 他 们 的 多 核 处 理 帮 。 

同时 ， 我 们 也 对 众 核 的 设计 很 感 兴趣 。 程 序 的 指令 级 并 行 (ILP) 有 限 ， 因 此 将 它们 并 
行 运行 在 功 耗 只 有 几 瓦 的 内 核 上 效果 会 更 好 。 我 们 与 探测 需 模 拟 软 件 Geant 4 的 开发 者 一 起 
将 数 百 个 线程 运行 在 一 个 Xeon Phi 协 处 理 嚣 上， 执行 整个 探测 需 模 拟 进程 来 演示 这 种 方法 
的 优势 。 未 来 将 告诉 我 们 小 内 核 、 大 内 核 或 者 两 者 的 混合 ， 哪 个 是 最 好 的 选择 。 我 们 的 目标 
是 对 所 有 可 能 都 做 好 准备 。 这 个 众 核 方案 所 取得 的 令 人 豆 舞 的 成 果 使 我 们 想 要 尝试 将 这 种 方 
法 应 用 到 一 个 单纯 的 处 理 器 上 ， 而 不 是 一 个 协 处 理 吉 上。 我 们 非常 期 竺 基于 使 用 下 一 代 Intel 
Xeon Phi (也 称 为 Knights Landing (KNL)) 的 单机 众 核 处 理 器 的 可 引导 系统 。 

学 习 具 有 高 可 扩展 性 的 并 行程 序 设计 

Intel Xeon 和 Intel Xeon Phi 系列 内 核 数量 的 激增 ,为 HEP 界 带 来 了 福音 。 高 能 物理 科 
学 具有 天 然 的 并 行 性 。 真 正 令 人 兴奋 的 挑战 是 扩展 到 众 核 和 疝 量化 的 过 程 。CERN 开放 实验 
室 已 经 为 此 做 出 了 贡献 。 近 十 年 里 ， 开 放 实 验 室 在 一 系列 的 研讨 会 和 高 校 中 教授 回 量 化 和 并 
行 化 ， 目 前 已 经 有 超过 1000 名 学 生 。 我 很 高 兴 能 够 为 大 家 介绍 这 本 书 ， 希望 越 来 越 多 的 读 
者 能 够 学 习 如 何 使 用 这 个 堪 称 “业界 标准 ”的 现代 微 处 理 需 来 提高 程序 的 性 能 。 


未 来 需求 增长 : 编程 模型 的 重要 性 
LHC 在 20 年 内 仍 将 继续 运行 。 我 们 还 雄心 勃勃 地 计划 提高 能 量 和 亮度 ， 这 必 将 导致 事 


件 的 复杂 性 增加 ， 从 而 提高 对 计算 的 需求 。 因 此 ， 我 们 必须 通过 回 量 化 获得 更 高 的 效率 。 
重建 物理 事件 的 挑战 在 于 如 何 捕捉 每 个 交互 的 所 有 细节 。 在 Intel 的 帮助 下 ， 我 们 实施 
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“Geant V ”项目 来 完成 软件 的 向 量化 ， 以 迎接 这 些 新 的 挑战 。 受 经 验 的 启发 ， 例 如 本 书 中 所 
列 的 那些 经 验 ， 在 不 久 的 将 来 我 们 很 可 能 实现 更 高 性 能 的 解决 方案 。 

本 书 将 使 为 Intel Xeon Phi 产品 开发 高 层 并 行 性 (包括 最 优 编程 ) 变 得 更 加 简单 。Intel 
Xeon 和 Intel Xeon Phi 系列 之 间 的 通用 编程 方法 对 整个 科学 和 工程 领域 都 是 有 利 的 ， 相 同 
的 程序 可 以 实现 多 核 和 众 核 的 并 行 可 扩展 性 和 癌 量 化 。LHC 还 将 运行 很 长 时 间 ， 和 希望 Intel 
Xeon Phi 系列 处 理 器 能 够 在 此 期 间 不 断 优 化 来 满足 我 们 大 量 的 计算 需求 。 





Sverre Jarp 
CERN 荣誉 成 员 
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ABE f 69 位 作者 的 Intel Xeon Phi 协 处 理 器 并 行 编程 经 验 ， 他 们 将 处 理 器 和 协 处 理 
此 的 性 能 发 挥 得 淋漓 尽 致 。 其 中 讨论 了 并 行 编程 中 许多 关键 的 挑战 和 技术 ， 并 给 出 了 令 人 激 
动 的 成 果 。 大 多 数 章节 展示 如 何 展 好 地 进行 扩展 和 向 量化 ， 这 将 有 利于 在 多 核 处理 器 和 众 核 
Intel Xeon Phi 协 处 理 顺 上 获得 更 好 的 性 能 。 其 他 章节 揭示 如 何在 提供 了 通用 编程 模型 的 系 
统 下 利用 由 Intel Xeon Ab FE 4h I Intel Xeon Phi 协 处 理 需 组 成 的 新 异 构 系 统 。 书 中 还 提供 了 
关于 部 署 、 管 理 、 监 控 与 运行 这 些 新 异 构 系 统 和 集群 的 专家 建议 。 


KA 61 个 内 核 的 灵感 : 编程 新 纪元 


对 我 们 来 说 ， 比 Intel Xeon Phi 协 处 理 需 的 成 功 更 引 人 了 瞩目 的 是 Intel Xeon Phi 协 处 理 
答对 并 行 编程 的 微 励 。 这 个 协 处 理 带 开局 了 编程 的 新 简章 。 而 在 多 达 61 个 内 核 上 的 并 行 编 
程 似乎 远 比 在 4 个 或 者 8 个 内 核 上 的 并 行 编程 更 有 吸引 力 。 它 激发 了 人 们 将 并 行 编程 技术 首 
次 应 用 于 一 些 应 用 程序 以 及 改进 已 有 的 并 行 应 用 程序 的 兴趣 。 它 激励 人 们 研究 真正 可 扩展 的 
并 行 编程 ， 而 不 仅仅 是 在 只 有 少量 并 行 (比如 四 核 处 理 句 上 ) 时 取得 的 尚 可 (有 时 甚至 微小 ) 
的 性 能 提高 。 

Intel Xeon Phi 协 处 理 硕 为 并 行 化 带 来 了 变革， 为 在 其 中 探索 的 人 们 人 带 了 巨大 的 机 遇 。 
在 这 个 过 程 中 ， 我 们 不 需要 新 的 编程 模型 、 新 的 语言 或 者 新 的 工具 。 本 书 提供 的 并 行 编程 工 
作 和 思想 ， 摘 述 了 如 何 将 旧 的 技术 应 用 到 新 的 异 构 编程 平台 上 。 这 将 帮助 我 们 挖掘 这 一 平台 
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余 ， 他 们 为 我 们 详 述 自己 的 工作 ， 以 便 使 我 们 学 习 他 们 的 成 功 经 验 。 我 们 希望 你 能 够 从 中 受 
益 ， 并 在 这 个 并 行 计算 的 新 时 代 获 得 成 功 。 


本 书 的 完成 首先 要 感谢 为 此 付出 努力 的 软件 开发 工程 师 们 ， 他 们 在 工作 之 余 与 我 们 分 享 
经 验 。 本 书 浓缩 了 各 位 作者 的 成 果 。 他 们 的 名 字 列 在 其 所 写 章 市 的 开头 ,“ 作 者 简介 ”中 有 
关于 他 们 的 简要 介绍 。 我 们 要 感谢 所 有 作者 坚持 不 懈 的 努力 与 理解 。 

感谢 我 们 共同 的 朋友 Sverre Jarp 在 “推荐 序 ” 中 分 享 他 独特 的 见解 ， 感 谢 Joe Curley 9x 
励 我 们 完成 这 件 几 乎 不 可 能 完成 的 事情 。 

James Reinders 感谢 妻子 Susan Meredith， 她 的 文 持 对 于 本 书 的 完成 至 关 重 要 。 同 时 ， 
James 也 感谢 女儿 Katie 和 儿子 Andrew 一 直 以 来 的 大 力 文 持 。 最 后 ，James 要 感谢 合 普 者 和 
朋友 Jim Jeffers ， 感 谢 他 又 一 次 成 为 完美 搭档 。 

Jim Jeffers 感谢 妻子 Laura 一 如 既往 的 支持 和 鼓励 。Jim 感谢 孩子 (包括 孩子 们 的 配偶 ) 
Tim, Patrick, Colleen, Sarah, 、Jon ， 尤 其 是 刚 出 生 的 孙女 Hannah, fti ]J5 RT ICAI A TE SCARE 
着 他 。 最 后 ，Jim 非常 感谢 合 著者 和 朋友 James Reinders， 感 谢 他 的 专业 技能 和 指导 ， 感 谢 
他 坚定 地 恪守 承 话 使 这 本 书 从 概念 变 成 现实 。 


感谢 Joe Curley, Bob Burroughs, Herb Hinstorff, Rob Farber 和 Nathan Schultz 提供 的 
支持 、 指 导 和 反馈 。 

感谢 整个 Morgan Kaufmann 团队 的 辛勤 工作 ,包括 与 我 们 直接 合作 的 三 个 人 : Todd 
Green, Lindsay Lawrence 和 Priya Kumaraguruparan, 

许多 同事 提供 了 信息 、 建 议和 想法 。 当 然 ， 还 有 很 多 人 直接 或 间接 地 提供 了 帮助 ， 对 此 
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OR o 


Ki Sing Chan 是 中 国 
香港 中 文大 学 的 一 名 本 科 
生 ， 主 修 数 学 和 信息 工程 ， 
兼 修 计算 机 科学 。2013 年 
暑假 期 间 他 第 一 次 在 田纳西 
橡树 岭 国 家 实验 室 参 与 科研 
工作 。 他 的 研究 方 问 包括 大 型 稠密 矩阵 的 
Cholesky 分 解 算法 的 实现 。 


Gilles Civario 是 爱尔兰 
高 阶 计 算 中 心 (ICHEC) 的 
一 名 高 级 软件 架构 师 ， 致 力 
于 为 国家 服务 用 户 和 ICHEC 
的 技术 转移 客户 公司 设计 和 
实现 软 便 件 解决 方案 。 


Guillaume Colin de 
Verdiére 是 法 国 原 子 能 和 
替代 能 源 署 (CEA) 的 一 名 
资深 专家 。 他 目前 的 主要 研 
究 方 回 是 新 型 架构 ， 尤 其 是 
Intel Xeon Phi 一 种 非常 
有 前 景 的 技术 ， 这 种 技术 可 能 让 机 顺 运 行 速 
率 达 到 百 亿 亿 级 。 赁 借 这 一 直接 研究 结果 ， 
他 正 积 极 研 究 这 种 新 型 技术 对 于 老 程序 演变 
ER nin] 
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Eduardo D'Azevedo 是 
美国 橡树 岭 国家 实验 室 计算 
数学 组 的 一 名 研究 员 (Staff 
Scientist)， 他 的 研究 兴趣 包 
括 开 发 高 度 可 扩展 的 并 行 
解 算 需 。 他 为 材料 科学 领域 
的 项 目 做 出 贡献 ， 并 致力 于 通过 先进 计算 
(SciDAC) 程序 融入 科学 发 现 。 他 开发 了 
ScaLAPACK 库 的 核 外 和 压缩 存储 扩展 ， 并 
对 最 优 网 格 生成 做 出 巨大 贡献 。 





Jim Dempsey 是 一 名 专 
PAB ies PE RE HT A te A ot 
系统 优化 的 咨询 师 。Jim 是 
QuickThread 编程 公司 的 总 
裁 。 他 的 研究 方向 包括 高 效 
编程 以 及 Intel Xeon 和 Intel 
Xeon Phi Jh 28 I5 [E46 o 





Alejandro Duran 是 
Pa BE A Intel Z n] AY y FH TL 
程 师 ， 帮 助 客户 优化 代码 。 
自 2005 年 以 来 ， 他 一 直 是 
OpenMP 语言 委员 会 的 成 员 。 





Manfred Ernst 是 谷歌 
Chromium 团队 成 员 。 加 入 
谷歌 前 ， 他 是 Intel 实验 室 的 
研究 科学 家 ， 在 那里 ， 他 开 
A | Embree 光线 追 踩 内核。 
他 的 主要 研究 方 问 包括 真实 
感 泻 染 、 光 线 追 踪 的 加 速 结构 、 采 样 以 及 数 
ds HA o 

















Kerry Evans 是 美国 Intel 
公司 软件 工程 师 ， 主 要 工作 
是 与 客户 合作 优化 基于 Intel 
Xeon Ah FE 45 All Intel Xeon Phi 
协 处 理 需 的 医学 影像 软件 。 


Rob Farber 是 拥有 深 
J AY HPC 背景 且 长 期 与 美 
国 国家 实验 室 和 企业 合 
进行 HPC 优化 工作 的 顾问 。 
Rob 已 经 撰写 并 编辑 了 多 本 
与 GPU 编程 相关 的 书籍 ， 是 
TechEnablement.com 的 首席 执行 家 和 出 版 商 。 


Louis Feng 是 美国 Intel 
公司 软件 工程 师 ， 主 要 工作 
是 与 梦 工 厂 动 画 公 司 合作 处 
理 高 性 能 图 形 。 他 目前 的 研 
究 兴 趣 包 括 光 线 仍 踩 、 基 于 
高 度 并 行 染 构 的 真实 感 图 像 
合成 和 并 行 编程 模型 。 


Evgeny Fiksman 任职 于 
美国 Intel 公司 ， 从 事 基 于 x86 
平台 的 视频 增强 算法 优化 工 
作 。 他 是 负责 OpenCL 运行 
时 在 Intel CPU 和 Intel Xeon 
Phi 协 处 理 器 上 实现 的 首席 
涤 构 师 和 工程 师 。 作 为 一 名 面向 客户 的 应 用 
工程 师 ， 他 目前 关注 的 领域 是 对 金融 应 用 的 
优化 。 


Jeff Hammond 是 Intel 
实验 室 并 行 计 算 实 验 室 的 研 
究 科 学 家 。 他 的 研究 方向 包 
括 单 边 和 全 局 视图 的 编程 模 
型 、 不 规则 算法 的 负载 均 
衡 ， 以 及 共享 内 存 与 分 布 式 
内 存 张 量 收缩 。 





Michael Hebenstreit 是 
K [E] Intel ZS 8] 9t VR SE HE AR 
构 师 和 Endeavor HPC 基准 
测试 数据 中 心 的 技术 主管 。 
他 帮助 这 个 数据 中 心 成 为 
主要 的 HPC 基准 测试 资源 。 他 创建 了 第 一 
个 Intel Xeon Phi 协 处 理 磊 集群 ， 为 将 Intel 
Xeon Phi 协 处 理 需 集成 到 Endeavour BE T 
基础 。 





Christopher Hughes 是 
Intel 3: Js ERR. f 
人 研究 方 问 是 新 兴 的 工作 负载 
和 计算 机 体系 结构 。 目 前 ， 
他 在 帮助 开发 针对 计算 和 数 
据 密集 型 应 用 的 下 一 代 微 处 
Hir, FFA SET SE SIMD 执行 和 众 核 处 理 
Ar ETE TIE A DG o 





Sverre Jarp 是 挪威 CREN 
AREE UA, V TE CREN H3 IT 
部 门 工 作 了 40 多 年 ， 推 广 
了 先进 的 、 成 本 效益 高 的 大 
规模 计算 。2002 年 ， 他 被 任 
MA CREN 开放 实验 室 的 首 
席 技 术 官 ， 并 一 直 担 任 这 个 职位 到 2014 年 
退休 。 现 在 ， 作 为 CREN 荣誉 成 员 ， 他 仍 
致力 于 研究 高 否 吐 量 计算 以 及 基于 向 量 和 并 
行 编程 的 应 用 可 扩展 性 。 
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Jim Jeffers 是 美 国 Intel 
公司 技术 计算 组 的 首席 工程 
师 和 工程 经 理 。Jim 与 人 合 著 

Y (Intel Xeon Phi Coprocessor 
High Performance Programming ) 
( Morgan Kaufmann, 2013) 
—B. HAT, Jim 4 Intel 的 技术 计算 可 
视 化 团队 。 


Gregory S. Johnson 是 
美国 Intel 公司 计算 机 图 形 学 
人 研究员 。 他 的 研究 领域 包括 
实时 和 真实 感 泻 染 、 可 见 性 
算法 、 空 间 数 据 结构 和 图 形 
HE EAR FY) o 


Vadim Karpusenko 是 
Æ 国 Colfax International 公 
司 的 首席 HPC 研究 工程 师 。 
他 的 研究 兴趣 包括 HPC 集群 
的 物理 建 模 、 高 度 并 行 架构 
和 代码 优化 。 


Michael Klemm 是 德 国 
mtel 公司 软件 与 服务 团队 的 
高 级 应 用 工程 师 。 他 主要 
Wr Sz res TE BERI ES FE ETE T 
o Michael 是 OpenMP iff 
言 委 员 会 的 Intel 代表 ,负责 


OpenMP 错误 处 理 功 能 的 开发 工作 。 


XIV 


Karol Kowalski 是 美国 太 
平 洋 西北 国家 实验 室 (PNNL) 
环境 分 子 科 学 实验 室 的 首席 
科学 家 。 他 主要 研究 精确 电 
子 结构 方法 及 其 高 度 可 扩展 
实现 。 他 的 方法 已 用 于 描述 
各 种 多 体系 统 ， 包 括 从 原子 核 和 分 子 ， 到 分 
子 和 纳米 科学 之 间 的 交叉 系统 。 





Michael Lysaght 在 爱 尔 
兰 高 阶 计算 中 心 (ICHEC) 
领导 新 技术 活动 与 英特尔 并 
行 计算 中 心 。 他 专注 于 支持 
爱尔兰 科学 用 户 社区 以 及 爱 
尔 兰 新 兴 多 核 和 众 核 技术 开 
发 行业 。 他 负责 WP7“ HPC 工具 和 技术 开 
发 ”活动 ， 这 个 活动 是 欧盟 的 PRACE 3IP 
项 目的 一 部 分 。 





Anton Malakhov 是 俄 罗 
斯 Intel 公司 的 资深 软件 开发 
工程 师 ， 研 究 Intel 线程 构建 
模块 (TBB)。 他 优化 了 Intel 
Xeon Phi 协 处 理 器 的 TBB 任 
务 调 度 和 大， 并 发 明了 一 些 调 
度 算 法 ， 提 高 了 Intel OpenCL 运行 时 在 MIC 
架构 上 的 性 能 。 他 目前 负责 task arena 和 
affinity partitioner 等 TBB 组 件 的 产品 化 。 





Tim Mattson 是 美国 Intel 
公司 并 行 计 算 实 验 室 的 首席 
工程 师 。 他 研究 大 数据 应 用 
的 软件 平台 和 百 亿 亿 次 计算 
机 的 执行 模型 。 他 拥有 超过 
30 年 的 并 行 计算 经 验 ， 并 帮 
助 创建 了 OpenMP 和 OpenCL。 他 的 著作 包 
括 《 Patterns for Parallel Programming ) € An 


Introduction to Concurrency in Programming 





Languages 兴 OpenCL Programming Guide 》。 











Simon Mclntosh-Smith 
领导 英国 布 里 斯 托 尔 大 学 的 
一 个 HPC 研 究 小 组 。 他 是 
ClearSpeed 的 联合 创始 人 之 一 
并 且 是 加 速 BLAS/LAPACK 
和 FFT 库 的 先驱 者 。 他 的 
研究 聚焦 在 众 核算 法 、 性 能 的 可 移植 性 和 达 
到 百 亿 亿 级 的 容错 软件 技术 上 。 他 现在 是 
Khronos OpenCL 异 构 编程 标准 的 贡献 者 。 


Larry Meadows 是 美国 
Intel 公司 首席 工程 师 ， 从 
1982 年 开始 他 就 为 HPC 开 
发 编译 副 、 相 关 工 具 和 应 用 
软件。 他 是 Porland Group 
的 发 起 者 之 一 ， 从 2004 年 
他 就 开始 为 Intel 公司 工作 了 。 


Karl Meerbergen 是 比 利 
时 和 鲁 汶 大 学 计算 机 科学 系 教 
授 。 他 的 研究 专注 于 大 规模 
数值 线性 代数 。 





losif Meyerov 是 俄罗斯 罗 
巴 切 夫 斯 基 州 立 大 学 (UNN) 
软件 系 的 副 主 任 ， 在 许多 研 
发 项 目 中 担任 首席 调研 员 。 
他 的 研究 兴趣 包括 高 性 能 计 
算 、 科 学 计算 、 性 能 分 析 和 
优化 、 系 统 编程 以 及 应 用 数学 。 


Kent Milfeld 任职 于 美 
国 德州 高 级 计算 中 心 ( Texas 
Advanced Computing Center, 
TACC)。 在 UT 的 早期 他 就 
是 高 性 能 计算 方面 的 导师 、 
科学 家 和 HPC 程序 员 。 在 
TACC 用 户 社区 ， 他 的 专家 培训 为 将 编程 范 
式 映射 到 高 效 硬件 提供 了 一 种 方法 ， 这 样 可 
以 获得 尽 可 能 高 的 性 能 。 





Paul Peltz, Jr. 是 美国 
田纳西 大 学 和 橡树 岭 国 家 实 
验 室 国家 计算 科学 研究 所 
的 HPC 系统 管理 者 。 他 是 
Beacon Cluster 的 主要 管理 
者 并 且 是 SC NICS 学 生 集 群 
挑战 团队 的 操作 导师 。 





Simon John Pennycook 
是 英国 Intel 公 司 应 用 工程 
师 ， 专 注 于 让 开发 者 充分 利 
FH 3r — fX Intel Xeon Phi B? 
Mb Ra. fi Hg ESET FE ET 
Xf He tet AS [8] B5) Rb FE ais SR) 
和 人 硬件 平台 优化 科学 应 用 ， 也 关注 性 能 的 可 
移植 性 。 





Jacob Weismann Poulsen 
是 丹麦 气象 局 (DMI) 研究 
小 组 的 一 个 HPC 和 科学 编程 
咨询 师 ， 他 擅长 分 析 和 优化 
气象 学 领域 的 应 用 。 
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Karthik Raman 是 美国 
Intel 公司 的 软件 架构 师 ， 他 
专注 于 性 能 分 析 和 为 Intel 
Xeon Phi 优 化 HPC 工 作 负 
载 。 他 专注 于 分 析 优 化 编译 
佑 的 代码 产生 、 问 量化 和 评 
估 性 能 的 架构 关键 特性 。 他 帮助 实现 变革 的 
方法 和 工具 来 提供 新 的 机 遇 和 见解 。 


James Reinders 任职 于 
美国 Intel 公 司 ， 致 力 于 促 
进 在 工业 中 使 用 并 行 编程 。 
他 的 项 目 包 括 世 界 上 第 一 
个 TFLOPS 的 超级 计算 机 
(ASCI Red) 和 世界 上 第 一 
个 TFLOPS ff) AES (Intel Xeon Phi 协 处 
SHAS). James 5 AS f C Intel Xeon Phi 


Coprocessor High Performance Programming ) 


以 及 其 他 一 些 高 性 能 编程 书籍 。 


Alexander Reinefeld 
是 德国 Zuse Institute Berlin 
(ZIB) 计算 机 科学 系 主 任 和 
FH ^ Humboldt 大 学 教授 。 
他 的 研究 兴趣 包括 分 布 式 计 
算 、 高 性 能 计算 机 体系 结 
构 、 可 伸缩 和 可 靠 的 计算 以 及 点 对 点 算法 。 


Dirk Roose 是 比利时 和 鲁 
汶 大 学 计算 机 科学 系 教授 。 
他 的 研究 侧重 于 计算 科学 与 
工程 的 数值 方法 以 及 并 行 科 
学 计算 的 算法 。 
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Carlos Rosales-Fer- 
nandez 是 美国 德州 高 级 计 
算 中 心 (TACC) 高 级 计算 评 
估 实 验 室 的 主任 ， 主 要 负责 
新 计算 机 体系 结构 与 高 性 能 
计算 相关 的 评 佑 。 他 是 开源 
mplabs 代码 的 作者 。 





Karl Schulz 在 美国 Intel 
公司 技术 计算 小 组 领导 Cluster- 
Maker 团队 研究 未 来 一 代 
HPC 软件 产品 。 





Jason Sewall 是 美 国 
Intel 公司 数据 中 心 小 组 的 一 
名 研究 人 员 ， 专 注 于 Intel 
Xeon Phi 的 研究 。 他 的 兴 
趣 包括 图 形 、 基 于 物理 的 建 
模 、 并 行 和 高 性 能 计算 、 数 
据 库 、 计 算 金 融和 图 算法 。 





Gregg Skinner 任 职 于 
美国 Intel 公司 ， 擅 长 在 并 行 
计算 机 上 移植 和 优化 科学 与 
工程 应 用 。 他 于 2011 年 加 入 
Itel 公司 软件 和 服务 部 门 。 

















Mikhail Smelyanskiy 
是 美国 Intel 公司 并 行 计算 实 
验 室 的 一 名 首席 工程 师 。 他 
负责 在 当前 和 未 来 一 代 并 行 
处 理 器 系统 上 设计 、 实 现 和 
分 析 并 行 算法 和 工作 负载 。 
他 的 研究 兴趣 包括 医学 成 像 、 计 算 金融 和 基 
本 高 性 能 计算 内 核 。 


Thomas Steinke 是 德国 
ZIB 超级 计算 机 算法 和 咨询 
小 组 的 负责 人 。 他 的 研究 兴 
趣 是 高 性 能 计算 、 科 学 和 数 
据 分 析 应 用 程序 的 异 构 系 统 
以 及 并 行 仿 真 方法 。Thomas 
在 2004 年 参与 起 草 了 OpenFPGA 倡议 ， 他 
领导 ZIB 的 Intel 并 行 计算 中 心 (IPCC). 


Shi-Quan Su 任职 于 美国 
田纳西 大 学 ， 是 一 个 HPC 顾 
问 ， 帮 助 用 户 将 代码 迁移 到 新 
的 平台 。 他 的 主要 工作 包括 针 
对 高 转变 温度 超 导 材 料 的 大 规 
模 粒 子 的 蒙特 卡 罗 模 拟 。 


Alexander Sysoyev 是 
俄罗斯 罗 巴 切 夫 斯 基 州 立 大 
学 (UNN) 软件 系 的 副教授 ， 
在 许多 研发 项 目 中 担任 首席 
调研 员 。 他 的 研究 兴趣 包括 
高 性 能 计算 、 全 局 优化 、 人 性 
能 分 析 和 优化 、 系 统 编程 以 及 应 用 数学 。 


Philippe Thierry {£ HR 
于 法 国 Intel AH], 5 BE UR 
工程 团队 为 能 源 领 域 的 用 户 
和 软件 厂商 提供 支持 。 他 的 
工作 包括 为 当前 和 未 来 平台 
以 及 与 应 用 程序 行为 有 关 的 
超级 计算 机 定义 分 析 与 调整 HPC 应 用 程序 。 
他 的 研究 面向 百 亿 亿 次 计算 的 性 能 推 央 、 应 
用 特征 和 建 模 。 





Antonio Valles 是 美 国 
Intel 公司 高 级 软件 工程 师 ， 负 
责 Intel Xeon Phi P) Zh IE $3 WY 
性 能 分 析 与 优化 。 他 在 Intel 
分 析 、 优 化 的 软件 涵盖 客户 
端 、 移 动 业务 和 HPC 业务 。 
他 非常 喜欢 写 代码 并 编写 了 内 部 的 post-Si 和 
pre-Si 工具 以 帮助 分 析 和 优化 应 用 程序 。 





Jerome Vienne 是 美国 
德州 高 级 计算 中 心 (TACC ) 
在 德州 大 学 奥斯汀 分 校 的 研 
究 助 理 。 他 的 研究 兴趣 包括 
性 能 分 析 和 建 模 、 高 性 能 计 
算 、 高 性 能 网 络 、 基 准 测 试 
和 百 亿 亿 次 计算 。 





Andrey Vladimirov 是 
Æ 国 Colfax International 7 
n] HPC 研究 小 组 的 负责 人 。 
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( Intel Xeon Phi Coprocessor High-Performance Programming 》 出 版 后 ， 我 和 Jim Jeffers 
最 常 听 到 的 建议 就 是 我 们 需要 写本 “参考 大 全 ”。Gnuillaume Colin de Verdiere 是 早期 推荐 我 
们 写 这 本 书 的 人 之 一 ， 他 为 我 们 能 够 开展 这 个 项 目 而 感到 高 兴 。Guillaume 也 通过 实际 行动 
来 帮助 我 们 推进 这 个 项 目 。 他 与 Jason Sewall 合 著 了 第 2 章 。 这 一 章节 反映 了 这 本 书 的 基本 
前 担 ， 即 成 功 经 验 的 分 享 对 他 人 是 很 有 教育 意义 的 。 它 还 包含 了 一 个 在 Intel Xeon Phi 系列 
上 进行 大 规模 并 行 编程 的 人 很 熟悉 的 主题 : 在 Intel Xeon Phi 协 处 理 器 上 运行 代码 是 非常 容 
易 的 。 这 可 以 使 你 快速 地 投入 优化 和 高 性 能 的 实现 工作 中 ， 同 时 ， 我 们 也 确实 需要 调整 应 用 
程序 的 并 行 部 分 ! 值得 注意 的 是 ， 我 们 发 现 这 样 的 优化 工作 能 够 同时 提高 处 理 器 和 协 处 理 器 
的 性 能 。 正 所 谓 “ 水 涨 船 高 ”。 


1.1 学 习 成 功 经 验 


本 书 的 主要 内 容 就 是 向 他 人 学 习 。 本 书 汇集 了 许多 并 行 编程 领域 专家 的 工作 成 果 。 其 中 
的 例子 是 根据 教育 意义 、 适 用 性 和 所 取得 的 成 果 来 进行 凯 选 的 。 并 且 ， 可 以 下 载 代 码 ， 然 后 
目 己 符 试 运行 。 所 有 这 些 例 子 都 使 用 并 行 编程 领域 非常 成 功 的 优化 方法 ， 但 是 并 不 是 所 有 例 
子 都 扩展 得 足够 好 ， 使 其 在 Intel Xeon Phi 协 处 理 器 上 的 性 能 比 在 处 理 器 上 好 。 实 际 上 ， 我 
们 需要 面 对 并 指出 的 是 : 通用 的 编程 模型 非常 重要 。 我 们 常常 可 以 看 到 这 个 想法 一 次 又 一 次 
在 实际 例子 中 出 现 ， 也 包括 在 本 书 的 实例 中 出 现 。 

我 们 非常 感谢 为 本 书 做 出 贡献 的 人 们 。 在 这 本 书 中 ， 你 可 以 发 现 丰 富 的 案例 和 建议 。 因 
为 这 是 引言 ， 所 以 我 们 将 对 这 些 案例 和 建议 进行 总 结 。 硕 望 你 可 以 认真 地 从 第 2 章 开 始 ， 学 
习 本 书 中 的 案例 。 


1.2 代码 现代 化 


最 近 ,“ 代 码 现代 化 ”这 个 词 非 常 火 。 受 61 个 内 核 所 鼓舞 ， 越 来 越 多 的 人 开始 讨论 它 。 
在 本 书 中 就 有 很 多 地 方 体现 着 “现代 化 ”。 

代码 现代 化 就 是 将 代码 进行 重组 ， 或 许 还 需要 改写 算法 来 提高 线程 并 行 性 、 向 量 / 
SIMD 操作 和 计算 强度 ， 以 实现 在 现代 架构 上 的 性 能 优化 。 线 程 并 行 性 、 向 量 /SIMD 操作 和 
强调 时 态 数 据 复 用 ， 对 高 性 能 编程 均 非 常 重要 。 许 多 已 有 的 应 用 程序 是 在 这 些 性 能 优化 方法 
出 现 之 前 完成 的 ， 因 此 这 样 的 代码 还 没有 针对 现代 计算 机 进行 优化 。 


1.3 并 发 算法 现代 化 
重新 考虑 算法 使 其 更 加 适应 现代 计算 机 并 行 性 的 案例 遍布 全 书 。 第 5 章 鼓励 使 用 栅栏 以 
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增加 程序 并 发 度 。 第 11 章 强 调 非 静 态 工作 负载 分 解 的 重要 性 ， 因 为 工作 负载 和 设备 都 不 会 
真正 均衡 地 运行 。 第 18 章 展示 并 行 世 界 是 非 平 坦 的 观念 的 重要 性 。 第 26 章 通过 调整 数据 、 
计算 和 存储 来 提升 性 能 。 第 12 章 通 过 在 异 构 节 点 上 确保 并 行 性 来 提升 性 能 。 第 13 章 、 第 
25 草 说 明 如 何在 异 构 集群 上 增强 并 行 性 。 


1.4 向 量化 和 数据 局 部 性 现代 化 


第 8 章 详细 讨论 数据 布局 问题 ， 用 于 处 理 数据 向 量化 。 第 27 章 和 第 28 章 进一步 说 明了 
对 数据 进行 布局 和 问 量化 的 重要 性 。 


1.5 理解 功 耗 使 用 


功 耗 使 用 情况 在 很 多 章节 都 有 提 及 。 我 们 邀请 了 Intel 功 耗 调 优 专家 Claude Wright KE 
第 14 章 。 这 一 章 着 重 描述 功 耗 测量 方法 ， 包 括 通过 Intel MPSS 工具 创建 一 个 基于 软件 的 简 
单 功 耗 分 析 句 。 并 且 ， 该 章 也 阐述 了 测量 空闲 功 耗 的 困难 性 ， 因 为 当 程序 忙于 测量 功 耗 时 ， 
就 已 经 不 是 空闲 状态 了 。 


1.6 ISPC #0 OpenCL 


OpenMP 和 TBB 在 工业 界 并 行 编程 解决 方案 中 处 于 领导 地 位 。 除 了 介绍 这 两 个 方法 以 
外 ， 本 书 还 引入 了 其 他 解决 方案 的 案例 。 

SPMD 编程 提供 了 癌 量 化 的 有 趣 解 决 方案 ， 包 括 辅助 数据 布局 ,但 是 这 个 方法 会 影响 数 
据 的 顺序 一 致 性 。 这 样 可 行 吗 ? 第 6 章 和 第 21 章 使 用 ISPC 和 SPMD 方法 作为 判断 的 依据 。 
即使 在 不 使 用 ISPC 的 情况 下 ，SPMD 也 会 符合 你 想 要 向 量化 的 想法 。 

第 22 章 用 于 推进 OpenCL 在 异 构 环 境 下 的 使 用 。 该 章 描述 了 BUDE 分 子 对 接 代码 的 测 
试 结果 。 这 上段 代码 可 以 在 多 种 系统 下 获得 高 于 30% 的 浮 点 计算 峰值 性 能 。 


1.7 Intel Xeon Phi 协 处 理 器 特性 


本 书 中 大 部 分 章节 的 内 容 都 是 将 算法 移植 到 处 理 器 和 协 处 理 器 上 ， 但 其 中 有 3 章 是 用 
于 深入 分 析 Intel Xeon Phi 协 处 理 需 特性 的 。 第 15 章 提 供 在 集群 系统 中 管理 Intel Xeon Phi 
协 处 理 器 的 最 佳 实践 。 第 16 章 和 第 20 HH Intel Xeon Phi 协 处 理 器 使 用 者 提供 了 有 价值 的 
观点 。 


1.8 众 核 和 新 异 构 系 统 


自从 2012 年 11 H Intel Xeon Phi 协 处 理 需 首次 发 布 以 来 ， 其 使 用 率 一 直 在 稳步 提升 。 
到 2013 年 年 中 ，Intel Xeon Phi 协 处 理 器 在 TOP 500 设备 中 所 贡献 的 浮 点 计算 量 超 过 了 所 
有 作为 浮 点 计算 加 速 器 的 GPU 所 贡献 的 计算 量 。 事 实 上 ， 在 TOP 500 超级 计算 机 中 ， 只 有 
Intel Xeon 处 理 器 所 贡献 的 浮 点 计算 量 比 Intel Xeon Phi 协 处 理 需 贡献 的 多 。 

就 像 在 前 言 中 所 提 到 的 ，Intel Xeon Phi HALIER HJ 61 个 内 核 已 经 开启 了 并 行 编程 的 新 
纪元 。 如 《 Intel Xeon Phi Coprocessor High-Performance Programming 》 所 介绍 的 ， 这 个 协 
处 理 需 采用 与 处 理 瑚 相同 的 编程 语言 、 并 行 编程 模型 和 工具 。 这 意味 着 在 协 处 理 器 上 编程 的 
挑战 和 在 通用 处 理 器 上 是 一 样 的 。 这 是 因为 在 处 理 器 和 Intel Xeon Phi 协 处 理 器 的 设计 中 都 
尽量 避免 了 会 使 编程 受 限 的 异 构 特征 。 
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使 用 Intel Xeon Phi 协 处 理 器 的 程序 员 的 经 验 一 次 又 一 次 印证 了 通用 编程 模型 的 重要 性 。 
这 一 点 在 本 书 各 个 章节 中 也 重复 强调 。 要 传达 给 读者 的 信息 是 ， 很 明显 在 Intel Xeon Phi th 
处 理 器 上 进行 扩展 和 向 量化 调 优 所 花费 的 时 间 就 是 处 理 器 (如 Intel Xeon 4b 3825) 性 能 调 优 
的 时 间 。 


1.9 书 名 中 没有 Xeon Phi 与 新 异 构 架构 编程 


因为 关键 的 编程 挑战 基本 都 是 并 行 ， 所 以 我 们 强调 在 多 核 和 众 核 计算 上 的 适用 性 ， 而 非 
仅仅 强调 在 Intel Xeon Phi 协 处 理 需 上 的 适用 性 ， 所 以 本 书 的 书 名 中 并 没有 “Xeon Phi”。 

但 是 ， 处 理 咒 和 协 处理 需 组 成 的 系统 的 确 在 两 个 主要 问题 上 更 显 优 势 ， 而 这 两 个 问题 
也 在 本 书 中 得 到 了 解决 : 1 ) 隐藏 在 主机 和 附属 设备 间 的 数据 移动 延 时 ， 其 中 设备 主要 是 指 
GPU 和 协 处 理 器 ， 未 来 Intel Xeon Phi 系列 产品 将 通过 作为 处 理 器 而 非 捆绑 的 协 处 理 需 来 提 
供 能 够 消除 数据 移动 开销 的 配置 。2 ) 另 一 个 独特 且 广 泛 的 挑战 是 异 构 系 统 编程 。 以 前 ， 异 
构 编程 是 指 包 含 互 不 兼容 的 计算 设备 的 系统 。 不 兼容 导致 需要 使 用 不 同 的 编程 模型 ， 甚 至 不 
同 的 开发 工具 和 编码 方法 。Intel Xeon Phi 产品 将 这 一 情况 彻底 改变 。Intel Xeon Phi 协 处 理 
器 为 并 行 编程 提供 了 与 所 有 处 理 器 兼容 的 编码 方法 。Intel 的 用 户 将 其 命名 为 “新 异 构架 构 ”， 
以 强调 在 探索 异 构 系统 的 过 程 中 ， 终 于 不 再 需要 编程 也 是 异 构 的 。 能 够 在 计算 设备 间 尤 其 是 
处 理 器 和 协 处 理 器 间 使 用 通用 的 编程 模型 ， 给 了 我 们 在 新 异 构架 构 人 硬件 上 非 滑 令 人 满意 的 编 
程 模型 。 


1.10 RRMA 


Intel 已 经 宣布 开始 研究 多 种 未 来 Intel Xeon Phi 设备 ， 并 且 已 经 发 布 了 关于 第 二 代 产 品 
Knights Landing 的 信息 。 

摩尔 定律 为 我 们 带 来 的 增长 在 Knights Landing 中 得 到 明显 体现 。 最 大 的 突破 是 将 Knights 
Landing 作为 处 理 器 。 能 够 作为 一 个 处 理 器 ， 益 处 是 巨大 的 ， 包 括 会 有 更 高 的 能 效 ， 能 够 减 
少数 据 移动 ， 大 的 标准 内 存 ， 以 及 对 Intel AVX-512 的 支持 (处 理 需 兼容 的 向 量 能 力 与 第 一 
fX Intel Xeon Phi 协 处 理 需 的 向量 能 力 几 乎 一 样 )。 

摩尔 定律 为 我 们 带 来 的 其 他 好 处 包括 使 用 非常 现代 化 的 乱 序 低 功 耗 内 核 设计 ， 支 持 封装 
内 的 高 带宽 内 存 ， 以 及 对 集成 结构 的 支持 (包括 网 络 接口 控制 颖 )。 

为 Knights Landing 做 准备 的 最 好 方法 是 彻底 地 被 61 个 内 核 所 激发 。Intel Xeon Phi 协 
处 理 器 的 性 能 调 优 是 确保 应 用 程序 可 以 很 好 地 利用 Knight Landing 的 资源 最 好 的 方式 。 当 
然 ， 因 为 Knights Landing 预计 是 更 具有 通用 性 的 ， 所 以 使 用 超过 50 个 内 核 上 基于 处 理 融 的 
系统 可 能 是 使 你 的 应 用 程序 为 Knights Landing 做 好 准备 的 更 好 选择 。 需 要 超过 50 个 内 核 ， 
是 因为 根据 以 往 经 验 少 量 的 内 核 将 无 法 体现 利用 高 层次 并 行 性 的 性 能 调 优 效果 。 

逻辑 上 可 以 确定 ， 众 核 的 未 来 是 光明 的 。 新 异 构 编程 使 并 行 性 的 代码 现代 化 成 为 可 能 。 
同时 ， 在 之 后 的 每 一 代 Intel Xeon Phi 设备 中 ， 并 行 性 的 代码 现代 化 过 程 似乎 将 会 变 得 更 加 
简单 。 我 们 希望 本 书 中 的 “技巧 ”可 以 激励 并 帮助 你 将 应 用 程序 现代 化 ， 以 利用 高 度 并 行 化 
的 计算 机 。 


1.11 TR 
在 本 书 的 创作 过 程 中 ， BOAT OR A TET BY TE A aT HE R h HAA GAA HY 
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重要 代码 片段 。 男 外 ， 我 们 要 求 各 个 章节 都 有 完整 的 例子 ， 这 些 例子 可 以 在 配套 网 站 http:// 
lotsofcores.com 或 项 目 网 站 上 下 载 。 每 章 最 后 一 节 会 告诉 你 在 哪里 可 以 下 载 代码 。 

教师 以 及 所 有 需要 做 相关 报告 的 人 都 会 体会 到 能 够 在 http:Wlotsofcores.com 下 载 本 书 中 
所 有 数据 、 图 表 和 照片 的 价值 。 请 使 用 这 些 资源 来 为 更 多 的 软件 开发 人 员 教授 和 解释 并 行 纺 
E! 我 们 非常 感谢 你 能 够 在 描述 资源 来 源 时 提 到 我 们 ， 否 则 ， 我 们 将 为 这 些 资源 的 使 用 设置 
一 些 条 件 。 


1.12 更 多 信息 


一 些 值得 阅读 的 额外 内 容 如 下 : 

与 本 书 相 关 的 下 载 网 站 : http://lotsofcores.com。 

由 Intel 赞助 的 并 行 编程 网 站 : http://go-parallel.com. 

Intel 网 站 上 关于 Intel Xeon Phi 产品 的 信息 : http://intel.com/xeonphi。 

Intel 网 站 上 关于 在 Intel Xeon Phi 产品 上 编程 的 信息 : http://intel.com/software/mic. 
Intel Xeon Phi 用 户 组 网 站 : https://www.ixpug.org. 

高 级 向 量 指令 的 信息 : http://software.intel.com/avx。 
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从 正确 到 正确 & 高 效 : Godunov 格式 的 Hydro2D 
案例 学 习 





Jason D. Sewall’, Guillaume Colin de Verdiére' 
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在 计算 机 上 高 效 模拟 物理 过 程 是 个 相当 复杂 的 过 程 。 一 方面 现实 的 物理 现象 非常 微妙 且 
复杂 ， 另 一 方面 现代 计算 机 系统 又 非常 繁杂 。 同 时 ， 即 使 是 高 效 模拟 非常 相似 的 物理 现象 ， 
随 着 细节 的 增加 和 计算 环境 的 变化 ， 模 拟 问题 的 复杂 程度 也 会 随 着 增 大 ， 如 模拟 海洋 中 的 小 
浪 运 动 和 摩托 艇 产生 的 波浪 。 

性 能 是 现在 计算 所 关注 的 焦点 ， 而 并 行 性 是 这 些 焦 点 中 的 特性 之 一 。 因 此 在 这 些 现代 系 
统 上 实现 物理 过 程 的 高 效 模拟 必须 考虑 这 些 性 能 特点 。 

本 章 将 探讨 一 段 科 学 模拟 代码 ， 这 段 代 码 是 一 个 以 气体 动力 学 为 基础 的 模拟 程序 。 这 份 
程序 的 输出 结果 正确 , 但 (初始 版 本 ) 性 能 欠 佳 。 通 过 分 析 代码 的 实现 并 介绍 代码 映射 到 现 
代 架 构 的 方式 ,我 们 将 看 到 它 的 性 能 将 如 何 显著 提升 。 


2.1 现代 计算 机 上 的 科学 计算 

在 电子 计算 机 出 现 前 ， 数 值 分 析 与 求知 欲 一 直 是 计算 机 发 展 的 动力 。 从 古代 的 算盘 到 纳 
皮尔 筹 ， 再 到 差分 机 和 分 析 机 ， 人 们 逐渐 认识 到 使 用 大 量 的 运算 几乎 可 以 描述 我 们 周围 的 一 
切 事 物 ， 这 种 思想 推动 了 进行 快速 、 可 靠 、 精 确 计算 的 技术 与 设备 的 发 展 。 

现代 世界 的 科学 计算 在 大 型 计算 机 领域 的 发 展 中 发 挥 着 巨大 作用 。 超 级 计算 机 就 是 为 模 
拟 天 气 、 材 料 试验 、 探 索 字 宙 而 建造 的 。 用 于 构建 超级 计算 机 、 笔 记 本 电脑 甚至 手机 的 芯片 
都 是 通过 “处 理 数据 "(该 术语 源 自 科学 计算 领域 ) 的 能 力 来 评估 自身 。 

科学 计算 能 够 持续 地 得 以 进化 和 发 展 ， 其 部 分 原因 是 由 于 人 们 对 规模 更 大 、 描 述 更 详 
细 的 问题 的 求知 欲 。 只 要 有 足够 的 资源 ， 化 学 家 将 非常 乐意 增加 分 子 动力 学 模拟 中 原子 的 数 
d. 海洋 学 家 将 使 用 更 多 的 网 格 单元 模拟 海洋 ， 天 体 物理 学 家 肯定 也 在 设想 着 使 用 更 多 星体 
的 模型 。 字 窗 可 能 是 有 限 的 ， 但 科学 计算 量 可 能 是 无 限 大 的 。 

正确 性 挑战 。 除 计算 工作 需要 大 量 的 计算 资源 之 外 ， 保 证 数值 计算 工作 的 正确 执行 是 
所 有 数值 计算 研究 人 员 的 另 一 项 挑战 。 由 于 数字 运算 是 近似 的 ， 因 此 在 将 许多 优美 的 抽象 数 
学 结构 应 用 到 离散 环境 时 要 格外 谨慎 ， 甚 至 在 有 些 情 况 下 ， 离 散 化 应 用 某 些 公式 是 完全 不 适 
合 的 。 

在 进行 科学 计算 的 代码 开发 中 需要 足够 的 耐心 并 遵循 大 量规 则 以 保证 程序 的 正确 性 : 这 
个 数学 模型 是 否 能 够 合理 地 表述 现象 ? 数值 是 否 稳定 ? 是 否 能 够 正确 地 选择 参数 ? 代码 实现 
是 否 正确 ? 硬件 是 否 可 靠 ? 

在 某 些 情况 中 ， 质 量 较 差 的 代码 依然 可 能 得 出 正确 的 结果 ， 但 是 会 出 现 比较 好 的 代码 执 


行 慢 、 优 化 器 难处 理 等 情况 。 

定制 的 工具 。 软 件 开发 者 深 知 标准 化 工具 (比如 软件 库 ) 带 来 的 好 处 ， 这 些 标准 化 的 工 
具 可 以 正确 传递 开发 者 的 意图 。 然 而 ， 这 些 软 件 库 必须 定制 。 虽 然 LAPACK/BLAS 是 一 个 
非常 有 用 的 工具 ,但 是 并 非 所 有 的 代码 (比如 本 章 所 用 的 代码 ) 都 适合 调用 这 些 软件 库 中 的 
PR. 

SIAN Ze, Ba PE aR (可 能 是 最 普遍 使 用 的 软件 工具 ) 技术 一 直 随 着 硬件 技术 的 发 展 而 
不 断 优 化 。 因 此 这 些 优化 后 的 编译 需 能 够 帮助 程序 员 在 不 同 架 构 特 征 的 平台 上 正确 执行 某 
一 部 分 代码 ， 同 时 也 能 自动 处 理 许多 低层 次 细节 ， 如 应 用 向 量 指令 以 及 对 线程 进行 自动 
整理 。 


2.1.1 现代 计算 环境 


编译 需 是 我 们 进行 代码 开发 环境 中 的 一 个 重要 组 成 部 分 。 主 要 包括 以 下 几 个 部 分 。 

e 硬件 : 处 理 名 的 微观 /宏观 架构 、IO 、 通 信 接 口 和 集群 级 别 内 容 。 

e 运行 时 : 操作 系统 和 用 于 管理 硬件 资源 并 为 用 户 提供 抽象 方 法 的 运行 时 软件 。 

e 开发 工具 : 编译 句 、 调 试 锅 以 及 帮助 程序 员 将 想法 转化 成 正确 且 有 效 代 码 的 分 析 

工具 。 

计算 环境 的 各 部 分 都 在 代码 开发 、 维 护 和 运行 中 发 挥 重要 作用 。 新 的 计算 环境 优化 在 不 
断 发 展 和 使 用 。 

科学 家 程序 员 困 境 。 科 学 代码 通常 由 熟悉 理论 的 领域 专家 所 写 。 这 些 科 学 家 - 程序 员 非 
常熟 悉 不 断 发 展 的 计算 环境 ,但 并 非 总 紧 跟着 计算 环境 发 展 的 前 沿 。 一 个 科学 代码 库 的 维护 
和 开发 可 能 超过 十 年 (或 30 年 )， 新 方法 兼容 前 期 用 户 几 乎 是 不 可 能 的 任务 。 

考虑 到 上 述 这 些 挑战 与 得 到 正确 结果 的 任务 ， 程 序 员 所 编写 的 代码 往往 不 能 达到 最 优 的 
性 能 。 直 接 快 速 开 发 的 代码 和 专家 经 过 数 月 研究 所 实现 的 代码 在 性 能 上 的 巨大 差距 称 为 “ 忍 
者 差距 " 。 该 性 能 差异 的 量 级 是 计算 机 开发 商 、 编 译 器 作者 和 开发 人 员 所 热切 关注 的 焦点 。 
这 种 差距 可 以 反映 出 处 理 右 性 能 的 广泛 实用 性 和 编译 融 的 质量 。“ 妨 者 差距 ”存在 于 所 有 代 
码 中 ， 但 通过 本 章 的 学 习 我 们 可 以 在 实际 应 用 中 缩小 这 种 差距 。 


2.1.2 CEA 的 Hydro2D 


本 案例 研究 的 对 象 是 一 段 由 CEA 所 开发 的 名 为 Hydro2D 的 中 等 规模 代码 。CEA (Com- 
missariat à l'énergie atomique et aux énergies) 是 一 所 法 国政 府 机 构 ， 该 机 构 主 要 进行 民用 和 
军用 研发 .Hydro2D 代码 用 于 内 部 天 体 动 力学 的 “代理 ”程序 。 这 类 程序 旨 在 保证 代码 量 ( 数 
万 行 代码 ， 而 不 是 几 十 万 或 几 百 万 行 代码 ) 可 控 与 保护 原始 代码 知识 产权 的 情况 下 ， 控 掘 
“基准 ”应 用 的 基本 计算 特性 。 

参考 的 Hydro2D 代码 大 约 有 500 行 。 这 份 代码 主要 用 于 解决 “冲击 流体 动力 学 ”问题 。 
事实 上， 就 是 高 能 气体 在 二 维 坐 标 上 的 移动 问题 。 除 了 在 天 体 动力 学 上 的 应 用 之 外 ， 该 代码 
使 用 的 技术 与 航天 领域 的 部 分 代码 十 分 相似 。 

原始 代码 具有 短小 紧凑 、 易 读 性 强 且 执行 结果 正确 的 特点 。 然 而 ， 其 在 多 核 架 构 上 性 能 
较 差 。 其 中 的 某 些 性 能 问题 是 为 了 保证 代码 的 可 读 性 和 简单 性 而 产生 的 ,但 其 他 问题 是 由 于 
忽略 了 面向 性 能 的 编程 所 造成 的 。 由 于 对 运行 时 和 硬件 行为 的 错误 理解 ， 参 考 代 码 的 某 些 方 
面 性 能 低下 。 
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章节 安排 。 在 接 下 来 的 章节 中 ， 我 们 将 回顾 参考 代码 的 一 些 背 景 知识 以 及 要 解决 的 问 
题 ， 讨 论 现代 计算 环境 上 的 重要 特征 ， 并 且 研 究 如 何 将 这 段 代 码 转换 成 高 效 代码 。 

我 们 将 量化 每 次 修改 后 得 到 的 性 能 提升 。 其 中 我 们 重点 关注 多 核 编程 环境 下 的 单 节点 
性 能 提升 ， 同 时 检查 “起 始 错误 ”的 后 果 ， 也 将 看 到 在 硬件 模型 不 完全 清楚 的 情况 下 如 何 
优化 。 实 验 结 果 表 明 ， 在 不 同 规模 问题 的 中 计算 环境 的 各 参数 能 够 得 到 3 — 10 倍 的 性 能 
提升 。 


2.2 ”冲击 流体 动力 学 的 一 种 数值 方法 

在 深入 了 解 如 何 优化 这 段 代 码 之 前 ， 首 先 介绍 并 分 析 该 代码 所 要 解决 的 问题 及 其 使 用 的 
高 级 算法 。 
2.2.1 RAHE 


欧 拉 方 程 (或 者 欧 拉 系 统 方程 ) 是 一 个 偏 微分 方程 组 ， 该 方程 是 流体 动力 学 中 Navier- 
Stokes 方程 的 特例 。 其 中 的 流体 是 无 黏 性 流体 ， 也 就 是 说 ， 流 体 的 黏度 影响 是 可 以 忽略 不 计 
的 。 二 维 形式 ( 见 本 章 ) X: 

p pu pv 
O|pul oa} pu’+p| d| pm 


=. =0 2 
ot|pv| ox| puv ðy| pv +p dd 
E (E+ p)u (E+ p)v 
其 中 ， 
B= + pty) ( 2-2) 


这 里 p 是 密度 , u 和 vv 是 x 和 ?方向 上 的 速度 , E 是 总 能 量 , p 是 压力 。 注 意 ,， 这 里 有 4 
个 偶 微 分 方程 ， 但 是 这 个 系统 是 从 定 的 ; 状态 方程 (A (2-2 )) 封闭 了 整个 系统 并 展示 了 系 
统 中 五 个 变量 的 依赖 关系 ; y 表示 流体 的 绝热 常数 ， 对 空气 设置 为 1.4。 

以 守恒 形式 表示 的 式 (2-1) 看 上 去 可 能 有 些 奇怪 ， 其 中 各 方程 均 代 表 一 个 守恒 量 ( 即 
质量 、 动 量 和 能 量 )。 适 当 离散 化 之 后 ， 求 解 过 程 将 会 保留 守恒 形式 中 有 用 的 物理 性 质 。 

欧 拉 系 统 在 很 多 数学 问题 中 发 挥 重要 作用 。 它 常用 于 描述 气体 运动 情况 并 应 用 在 冲击 动 
力学 基础 研究 中 。 此 外 ， 它 建立 了 一 个 比 全 Navier-Stokes 更 加 简单 的 系统 ， 且 该 系统 具有 
重要 的 非 线性 行为 。 从 数学 方面 而 言 ， 黏 度 项 的 消除 将 PDE 的 本 质变 为 完全 双 曲 线 ， 这 对 
于 缩短 求解 时 间 方 面 的 研究 具有 深远 意义 。 

MASK (2-2) 上 我 们 可 以 看 出 该 式 所 用 状态 方程 为 理想 气体 定律 。 针 对 不 同 的 应 用 已 经 
得 到 了 更 加 精细 的 状态 方程 ， 但 其 对 该 方法 性 能 上 的 影响 较 小 〈 访 问 局 部 性 与 这 里 使 用 的 大 
同 小 异 )。 


2.2.2 Godunov 方法 


在 冲击 的 研究 中 ， 欧 拉 方 程 通常 用 于 对 应 的 计算 解决 方案 中 。Hydro2D 是 一 段 冲击 捕 
获 代 码 ， 使 用 Godunov 方法 来 计算 由 用 户 设 定 的 初始 边界 值 问题 (BVP), 

Godunov 方法 是 在 1959 年 由 苏联 数学 家 Godunov 提出 的 。 由 于 式 (2-1) 的 形式 难以 
在 存在 冲击 时 进行 定义 ， 因 此 它 使 用 了 PDE 的 积分 形式 ， 即 各 离散 单元 格 对 应 一 个 特定 量 


8 LF 


均值 。 在 每 个 步 长 中 ， 我 们 计算 在 该 步 长 内 发 生 的 各 相 邻 单元 格 间 的 平均 流量 ; 该 流量 是 指 
单元 格 间 流动 的 量 。 随 着 执行 时 间 的 推移 ， 单 元 格 总 数 进行 更 新 的 同时 ， 解 也 随 之 更 新 。 图 
2-1 表示 的 是 一 维 Godunov 方法 示意 图 。 
斜率 限制 。 对 于 冲击 处 理 而 言 ， 采 用 
均值 表示 法 可 以 起 到 一 定 的 作用 ， 但 是 者 2 
不 加 以 修改 ， 它 只 能 作为 一 个 分 段 常 数 方 o NS 
案 和 并 将 空间 精度 限制 在 一 阶 上 。 
目前 已 经 有 许多 数值 计算 方法 能 够 在 = UE 
高 阶 精 度 的 基础 上 解决 该 问题 。 这 些 方法 


Sip 、 图 2-1 带 有 未 知 量 O 的 一 维 Godunov 方法 , x; fV 
必须 详细 规划 以 确保 在 求解 时 的 不 连续 性 表单 元 的 边界 ， 单 元 格 容量 代表 每 个 单元 格 
同时 避免 引入 非 物理 分 散 现象 。 


l 存储 的 离散 均值 。 箭 头 代 表单 元 之 间 的 流量 
流量 限制 是 精度 改进 方法 的 一 种 ， 在 zi 


加 快 求解 之 前 ， 它 通过 对 小 流量 区 域 进行 
研究 修改 积分 方案 。Hydro2D 使 用 另 一 种 名 为 斜率 限制 的 方法 ， 该 方法 使 用 一 个 邻 域 的 单元 
格 值 来 计算 流量 平面 中 每 个 单元 格 的 斜率 值 。 

黎 曙 问题。 如 何 计算 流量 是 Godunov 方法 的 核心 内 容 。 也 就 是 说 ， 要 根据 给 定 的 一 对 
共享 一 条 边 的 单元 格 ， 计 算出 这 个 时 间 步 长 中 的 平均 流量 。 换 而 言 之 ， 即 给 定 两 个 分 段 恒 定 
的 状态 ， 这 两 个 状态 在 空间 中 相遇 ， 那 么 它们 在 控制 方程 的 约束 下 将 如 何 演变 ? 这 就 是 我 们 
熟知 的 黎 曼 问题 。 对 于 非 线 性 方程 组 来 说 ， 演 变 过 程 将 会 非常 复杂 。 新 的 中 间 态 可 能 会 冲击 
左 状态 、 右 状态 ， 甚 至 同时 冲击 两 个 状态 ， 更 有 可 能 使 得 两 个 状态 互相 冲击 。 这 些 新 的 状态 
可 能 包含 尖锐 、 快 速 移动 的 脉冲 以 及 缓慢 光滑 变化 的 波动 块 。 

我 们 所 需要 解决 的 是 一 个 离散 的 黎 曼 问题 ， 这 个 黎 曼 问 题 是 在 两 个 共享 一 条 边 的 单元 格 
间 产 生 的 个 n*n 的 网 格 中 ， 每 个 在 每 个 时 间 步 长 中 要 计算 2n (n-1) 对 共享 边 的 单元 格 
对 。 为 了 对 这 些 黎 曼 问题 进行 求解 ， 研 究 特 定 且 高 效 的 黎 曼 求解 器 一 直 以 来 是 一 个 热门 的 研 
究 内 容 。 

Hydro2D 使 用 局 部 非 线性 求解 器 来 解决 黎 曼 问题 : 在 2D 欧 拉 方 程 中 ， 大 量 的 中 间 态 可 
以 通过 在 左右 状态 之 间 的 一 个 非 线性 标量 方程 所 决定 。 我 们 使 用 在 干 次 Newton-Raphson 3€ 
代 就 会 计算 出 来 流量 的 合适 值 。 

积分 。2D 欧 拉 方 程 构成 了 一 个 双 曲 系统 方程 组 ， 这 种 方程 组 通常 使 用 显 式 的 技术 计算 
积分 。Hydro2D 用 显 式 欧 拉 方 法 执行 时 间 的 积分 。 在 冲击 存在 的 条 件 下 这 是 一 个 简单 有 效 的 
Re 

另外 一 个 需要 考虑 的 因素 是 稳定 性 ; 对 于 给 定 的 单元 格 状态 (意味 着 8 和 网 格 间隔 
Ax)， 为 了 得 到 正确 稳定 的 解 ， 有 最 大 可 允许 的 时 间 步 长 Ass 因为 相同 的 At 必须 处 处 都 存 
在 ， 所 以 在 积分 之 前 At 的 值 必须 已 知 ， 而 且 由 于 At 依赖 于 解 的 离散 状态 ， 因 此 在 每 个 时 
间 步 开始 计算 前 都 会 出 现 一 个 计算 和 归 约 步 的 操作 。 

维度 分 裂 。 传 统 的 Godunov 方法 是 一 维 的 ， 对 于 二 维和 三 维 需 要 使 用 维度 分 裂 的 方法 。 
这 是 更 一 般 的 算 子 分 裂 方法 的 一 个 特例 ， 在 其 中 ， 原 有 方程 被 算 子 分 裂 成 几 个 方程 ， 这 些 方 
程 就 会 串 行 地 根据 先前 的 结论 (图 2-2 ) 求解 。 在 式 (2-1) 中 有 两 个 空间 项 被 分 解 成 单独 的 
时 间 步 长 ; 为 了 从 4 推进 到 +1， 解 也 从 使 用 6/6x 项 从 推进 到 中 间 态 i*， 接 着 使 用 69/0y 
项 推进 到 1, ;1 (流量 计算 与 积分 )。 





Xo x; X» Xs Xe X4 Xg Xo 
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图 2-2 离散 维度 下 的 Godunov 方法 


2.2.3 ”哪里 需要 优化 


PDE 有 很 多 种 类 并 且 离 散 化 ， 积 分 的 数值 方法 各 种 各 样 。 对 于 一 个 给 定 的 问题 ， 有 许 
多 方式 可 得 到 这 个 问题 的 解 。 在 不 同 enet REEL TEN 
Jk. 

Godunov 方法 既 不 是 stencil 方法 (尽管 很 类 似 于 此 )， 也 不 能 通过 对 偶 线 性 系统 表征 ， 
对 偶 线 性 系统 可 借助 Krylov 子 空间 方法 得 以 求解 特征 。 这 意味 着 关于 其 他 技术 的 先 人 为 主 
观念 不 太 可 能 。 

显 式 stencil 代码 的 算术 强度 通常 是 非常 低 的 一 一 本 质 上 ， 它 是 对 每 8 字 节 ( 双 精 度 ) 

的 数据 读 后 的 乘 加 操作 。 这 使 得 它们 对 于 快速 内 存 带 宽 具 有 要 求 ， 除 非 使 用 了 blocking/ 
warefront 方法 。 就 像 我 们 将 要 看 到 的 ， 这 段 代码 需 要 计算 流量 并 且 对 一 个 Hydro2D 的 单元 
积分 ， 它 对 于 每 个 未 知 项 维度 有 大 量 的 积分 操作 ， 需 要 注意 ， 每 个 操作 都 可 能 成 为 操作 瓶颈 。 

隐 式 积分 问题 通 稼 会 导致 大 规模 稀疏 和 矩阵 的 出 现 ， 而 且 这 些 大 规模 稀疏 矩阵 一 定 要 用 和 迭 
代 方 式 求解 。 很 自然 ， 这 些 方法 需要 很 大 的 工作 集 ; 从 直觉 上 ， 数 学 操作 符 的 底层 “支持 ” 
是 全 局 性 的 。 每 个 未 知 项 都 和 所 有 的 其 他 的 未 知 项 相 耦 合 ， 这 转化 为 计算 至 少 需 要 在 每 次 迭 
代 中 使 用 整个 系统 和 矩阵、 右边 项 和 未 知 项 。 作 为 一 个 双 曲 系统 ，Hydro2D 中 的 基础 操作 几乎 
都 是 内 在 局 部 的 ， 这 对 于 减少 工作 集 的 规模 有 着 巨大 的 意义 。 


2.3 现代 计算 机 架构 的 特征 


为 了 让 大 型 程序 高 效 运 作 ， 程 序 员 心 中 必须 大 致 明白 程序 是 怎样 运作 的 。 这 并 不 意味 着 
每 个 程序 员 要 成 为 架构 师 和 编译 需 专 家 个 能 够 表达 系统 重要 的 性 能 方面 的 工作 模型 就 
已 经 足够 了 。 


2.3.1 面向 性 能 的 架构 


性 能 和 效率 一 直 是 计算 机 硬件 制造 商 最 关心 的 内 容 ， 同 时 在 现代 计算 架构 中 存在 的 大 量 
技巧 就 是 为 了 直接 解决 性 能 问题 。 
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内 存 子 系统 。 近 几 十 年 ， 计 算 机 内 存 经 常 被 组 织 成 多 级 架构 ， 这 种 多 级 架构 是 一 种 逐渐 
减少 容量 以 增加 带宽 和 减少 延 时 的 妥协 方案 。 除 了 主 存 之 外 ， 几 乎 每 个 现代 计算 机 至 少 有 两 
级 缓存 ， 现 在 三 级 缓存 也 开始 变 得 更 加 普 届 。 内 存 子 系统 在 多 核 和 多 般 套 字 系 统 中 的 性 能 也 
变 得 更 加 重要 。 

对 于 越 来 越 深 的 内 存 体系 结构 来 说 ， 主 存 人 带宽 和 计算 能 力 间 越 来 越 大 的 差距 是 造成 深度 
内 存 架 构 的 部 分 原因 ， 同 时 ， 工 作 集 和 缓存 容量 在 性 能 中 所 扮演 的 角色 也 是 无 法 忽视 的 。 

虚拟 内 存在 现代 系统 中 也 是 相当 普遍 的 ， 现 代 系 统 也 支持 不 同 大 小 的 页 。 硬 件 对 页 的 支 
持 已 经 让 大 多 数 代码 无 须 考虑 TLB 的 容量 ,但 是 一 定 要 注意 有 些 特定 情况 。 

线程 级 并 行 。 在 过 去 的 十 年 中 ， 几 乎 每 个 主流 处 理 器 开始 增多 其 内 核 的 数量 ， 同 时 ， 多 
嵌 套 字 配 置 使 得 工作 站 和 服务 器 间 的 共享 内 存 并 行 比 以 前 更 加 容易 实现 。 

通过 直接 增加 控制 无 关 路 径 和 功能 单元 的 数量 ， 多 核 和 多 骨 套 字 为 提高 性 能 提供 了 相 
似 的 机 制 。 硬 件 支 持 的 同时 多 线程 有 时 会 引发 混乱 一 一 那些 被 单 核 所 支持 的 “硬件 线程 ” 
使 得 代码 在 单 核 上 比较 容易 使 用 所 有 资源 ， 但 是 多 线程 的 出 现 并 没有 增加 单 核 上 设施 的 可 
用 性 。 

数据 级 并 行 。 虽然 和 20 世纪 80 年 代 流 行 的 回 量 处 理 占 有 着 相似 之 处 ， 但 是 SIMD 指令 
集 通常 基于 全 宽 ( full-width) 功能 单元 并 且 受 益 于 现在 硬件 中 的 很 多 超标 量 特征 。SIMD 通 
常 在 “包装 ”好 的 输入 数据 上 执行 ， 但 不 利于 控制 分 歧 。 

指令 级 并 行 。 现 代 硬 件 具 有 高 度 超 标量 体系 结构 ， 这 种 体系 结构 使 用 很 多 不 一 样 的 处 理 
器 ， 这 些 处 理 器 的 特征 有 乱 序 执行 ， 多 执行 端口 ， 精 细 的 预 取 ， 预 测 机 制 ， 以 及 分 支 预测 硬 
件 。 这 种 并 行 通 常 不 会 被 程序 员 所 看 到 ， 但 是 没有 这 些 特征 将 会 带 来 损失 (由 每 周期 执行 的 
指令 测量 ) 并 且 可 能 预示 着 资源 使 用 率 的 缺失 。 


2.3.2 ”编程 工具 和 运行 时 


对 于 程序 员 幸 运 的 是 ， 我 们 所 使 用 的 工具 一 一 编译 右 、 调 试 右 和 采样 分 析 各 ， 随 着 硬件 
变 得 越 来 越 精 细 ， 越 来 越 强大 。OpenMP 已 经 发 展 到 了 4.0， 这 使 得 它 成 为 一 个 开发 多 线程 
程序 的 选择 。 

本 章 不 使 用 OpenMP 的 细节 技术 ， 只 是 简单 让 OpenMP 在 运行 时 管理 线程 的 数量 和 其 
同类 之 间 关 系 的 细节 。 对 于 规模 可 变 的 实验 中 ,设置 环境 变量 PMP_NUM_THREADS 用 来 管 
理 线程 数量 是 非常 有 用 的 ， 同 时 设置 KMP_AFFINITY 的 散播 或 者 集中 可 以 用 来 控制 SMT 
应 该 如 何 使 用 。 注 意 ，KMP_AFFINITY 是 Intel 编译 器 的 量 ， 对 于 gcc 使 用 GOMP_CPU_ 
AFFINITY, 

WF, ABR. Bact PLAY Fe h SE AE eB EAE P A A 186] at A 
术 。 它 的 目的 是 基于 少量 代码 产生 高 效 的 为 SIMD 代码 。 用 自动 向 量 分 析 器 转换 和 生产 高 效 
代码 的 方式 编写 代码 是 一 种 艺术 ， 也 是 最 令 人 满意 的 方法 。 

编译 器 内 置 函 数 (intrinsics) 是 表达 向 量化 代码 最 可 靠 的 方式 ， 这 些 内 置 的 数据 类 型 和 
图 数 直接 翻译 成 SIMD 寄存 器 和 指令 。 然 而 ,它们 是 由 供应 商定 制 的 ， 有 些 会 星 汲 难 懂 。 

一 个 替代 内 置 函 数 的 选择 是 C++ 类 (这 种 方法 在 本 章 中 使 用 最 频繁 )， 这 个 类 包装 内 置 
函数 。 这 些 类 很 容易 自己 编写 一 一 Intel 编译 器 带 有 一 组 一 一 它们 提供 一 个 方便 的 抽象 层 ， 这 
样 可 以 为 SIMD 宽度 提供 一 些 灵活 性 。 甚 至 可 以 重 载 标准 算术 运算 符 ， 这 使 得 使 用 它们 编码 
的 方式 和 使 用 标准 C++ 标量 类 型 编码 类 似 。 
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2.3.3 计算 环境 


Intel xeon E5-2680 处 理 器 。 它 是 基于 x86 架构 的 新 一 代 众 核 服 务 器 架构 多 核 处 理 需 。 
这 种 处 理 器 有 超标 量 ， 乱 序 执行 的 内 核 ， 这 种 内 核 文 持 两 路 超 线 程 。 除 了 标量 单元 之 外 ， 它 
还 有 一 个 256 位 宽 的 SIMD 单元 (用 于 执行 AVX 指令 集 )。 分 离 的 乘法 和 加 法 端口 允许 一 条 
加 法 指令 和 一 条 乘法 指令 (每 个 都 4 位 宽 ， 双 精度 ) 在 一 个 周期 中 完成 。 本 章 考 虑 的 是 2 x 
EF. 16 核 配 置 。 | 

Intel Xeon Phi HERBES IC PPAD PE AEA — AA EET RS EBIRETIHIT 
内 核 。 每 个 内 核 支持 4 HARE, CPAP fle OS Eso, o J 39] fi SAAN FE Tad AY HE. HAE 
理 需 中 的 内 核 是 顺序 执行 的 ， 每 个 周期 都 发 出 不 超过 一 个 回 量 指令 ， 同 时 运行 的 频率 比 处 理 
Ako ZEA YA PRAY ST 位 宽 的 回 量 指令 集 ， 同 时 文 持 融 合 乘 加 (FMA)， 这 使 它们 能 够 
执行 8 位 宽 双 精度 乘 加 操作 。 本 章 使 用 的 是 预 生产 的 芯片 。 

协 处 理 器 在 物理 上 安装 在 PCle 卡 上 ， 同 时 使 用 了 GDDR 内 存 和 Linux 操作 系统 。 本 章 
中 ,我 们 要 原生 地 在 协 处 理 器 上 运行 实验 一 一 二 进 制 和 输入 要 与 卡 共 享 ， 并 且 完 全 运行 在 这 
Ef. 

更 多 的 信息 在 图 2-3 上 表示 。 一 级 和 二 级 缓存 的 大 小 对 于 处 理 帮 和 协 处 理 带 来 说 都 是 
针对 每 个 内 核 的 ， 三 级 缓存 对 于 处 理 器 是 针对 每 个 内 核 的 ， 但 是 在 片上 所 有 内 核 之 间 是 共 
享 的 。 


套 接 字 x 内 核 xSMT 时 钟 (GHz) 2x8x2 1x60x4 


每 个 内 核 每 周期 执行 的 指令 数 ES 
691 2127 
346 1063 
L1 / L2 / L32Xff(KB ) 32 / 256 / 20,480 32 / 512 /- 
DRAM 128 GB 4 GB GDDR 





STREAM 中 的 带宽 76 GB/s 150 GB/s 


图 2-3 系统 配置 


2.4 通 回 高 性 能 的 路 
本 节 描 述 如 何 将 以 性 能 为 核心 的 特性 模型 应 用 到 计算 环境 中 以 加 速 Hydro2D。 首 先 简 
单 浏览 参考 代码 。 


2.4.1 运行 Hydro2D 


Hydro2D 是 使 用 Godunov 方法 求解 欧 拉 方程 的 一 种 实现 。 给 定 一 个 离散 的 初始 化 边界 
值 问 题 ， 它 沿 着 从 triia=0 到 tra 的 计算 步 长 推进 。 

这 段 代 码 首 先 由 一 系列 的 参数 文件 所 构成 ， 读 取 这 些 文件 用 来 形容 要 解决 的 问题 ， 同 时 
告诉 这 个 程序 在 执行 的 时 候 应 该 怎样 表现 (关于 输出 、 阻 塞 等 )， 

线程 的 数量 根据 OpenMP 运行 时 确定 。 下 面 的 示例 使 用 两 线程 运行 ， 默认 相关 配置 的 
情况 ( 见 图 2-4 ) 。 

命令 的 输出 是 为 了 告知 用 户 参 数 的 选择 和 求解 器 处 理 的 进度 。 

nml 文件 并 没有 完全 包含 整个 要 解决 的 离散 问题 。 取 而 代 之 的 是 ，Hydro2D 代码 有 很 
多 用 户 可 以 指定 顺序 生成 的 测试 问题 ， 用 户 只 需要 指定 测试 问题 的 尺寸 和 数量 ( 见 图 2-5). 
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$ 
ho 
* 


[user@localhost $] UMP NUM THREADS-2 ./hydro -i input problem.nml 


|nx=250 

|ny=125 
|nxystep=125 

| tend=200.000 
|nstepmax=1000000 
|noutput=0 

| dtoutput =2.000 


Lower corner test case : 2 2 

Hydro starts. 

Hydro: OpenMP mode ON 

Hydro: OpenMP 2 max threads 

Hydro: OpenMP 1 num threads 

Hydro: ÜpenMP 4 num procs 

Hydro: standard build 

HydroC: Simple decomposition 

HydroC: nx=1 ny-1 

--> step- 1, 1.33631e-03, 1.33631e-03 {1034.06 Mflops 20307925 (0.020s) 
--» step- 2, 2.67261e-03, 1.33631e-03 {1048.12 Mflops 19401667 (0.0193) 
--» step= 3, 5.17799e-03, 2.50538e-03 {1241.47 Mflops 20307925 (0.0165) 
--» step= 4, 7.68338e-03, 2.50538e-03 {1150.96 Mflops 19401667 (0.0178) 





图 2-4 ”运行 参考 Hydro2D 代码 的 例子 


This namelist contains various input parameters for HYDRO 


&RUN 

tend-50 
#noutput=10 
nstepmax=1133 
dtoutput=2. 

/ 


&MESH 
nx=256 

ny =256 
nxystep=125 
prt=0 
dx=0.05 


boundary left-1 
boundary right-1 
boundary down-1 
boundary up-71 
testcase-1l 


/ 


& HYDRO 
courant factor-0.8 
niter riemann-10 


/ 





图 2-5 Hydro2D 文件 的 输入 样 例 


2.4.2 Hydro2D 的 结构 


Hydro2D 参考 代码 有 近 5000 行 ， 分 布 在 19 个 header/c 文件 对 中 ,但 是 核心 计算 例 程 
非常 紧凑 。 

计算 方案 

在 每 个 时 间 步 长 中 会 执行 下 列 步 骤 ， 以 此 推进 到 下 一 个 时 间 步 长 所 需要 的 解 : 

更 新 。 根 据 维 度 分 裂 方 法 ， 更 新 可 以 在 x 一 y/y 一 x 维度 模式 中 选择 ; 每 次 更 新 包含 单 
元 格 的 流量 计算 《实际 上 就 是 在 每 个 垂直 于 更 新 方向 上 的 单元 格 中 构建 和 求解 黎 曼 问题 )。 
在 更 新 中 ， 所 有 黎 曼 问题 都 是 独立 的 。 当 一 个 单元 格 的 流量 计算 出 来 时 ， 时 间 上 的 积分 就 可 
以 运算 了 。 

时 间 步 长 计算 。 为 了 积分 的 稳定 性 ， 必 须 基 于 每 个 单元 格 中 的 状态 计算 和 归 约 courant 
数 。 这 是 一 个 归 约 过 程 。 

数据 结构 

Hydro2D 的 数据 结构 非常 接 单 。 为 了 简化 一 些 边 界 计 算 ， 解 状态 存储 在 一 个 由 两 个 单 
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元 格 组 成 的 普通 单元 格 “ halo 层 ” 中 。 网 格 被 组 织 成 [p, pu, pv, E]: 的 形式 ， 变 量 都 存储 于 
各 上 自 的 平面 中 。 这 是 使 用 的 是 y-major 空间 维度 排序 。 因 为 考虑 到 问题 的 对 称 性 ，x-major 
和 y-major 是 等 价 的 。 

除了 全 局 问题 状态 之 外 ， 参 考 版 本 的 Hydro2D 代码 有 一 个 次 级 数据 结构 用 于 存放 中 间 
状态 的 值 。 

slab。Hydro2D 参考 代码 工作 在 单独 的 多 层 网 格 平台 上 ， 相 比 于 全 局 网 格 ， 这 些 网 络 会 
有 更 小 的 维度 。 这 种 结构 叫 作 slab， 它 允许 格格 不 入 的 计算 并 作为 构造 和 屏蔽 结构 。 

在 每 个 更 新 步 中 ， 一 部 分 单元 格 复制 进 slab 中 。 然 后 每 个 更 新 都 在 slab 中 进行 ， 这 些 
slab 分 别 和 存储 子 域 中 每 个 交界 处 /单元 格 的 中 间 态 。 当 积分 完成 时 ,结果 被 写 回 结果 网 格 ， 
同时 男 外 一 个 子 区 域 的 值 复 制 进 slab 中 ， 直 到 整个 解 网 格 更 新 结束 。 从 图 2-6 可 以 看 到 整个 
过 程 。 

值得 注意 的 是 ， 使 用 参考 代码 中 x 和 yy 维度 上 的 更 新 都 能 用 slab， 为 了 妥善 处 理 边界 
值 ， 更 新 x 行 和 yy 列 在 并 没有 得 到 副本 前 完成 。 对 于 y 轴 来 说 ， 复制 进 /出 slab 的 数据 是 原 
始 数据 的 转 置 ， 因 此 slab 总 是 必须 足够 宽 以 容纳 网 格 的 x 和 yy 维度 ( 男 外 一 个 slab 维度 是 用 
户 可 选择 的 参数 )。 

关键 函数 。 对 于 这 份 参考 代码 中 有 11 个 关键 函数 ; 有 些 图 数 的 实现 很 简单 。 这 些 函 数 
都 可 以 在 自己 的 源 文件 中 找到 。 简 单 的 总 结 如 下 。 

e compute deltat(): 这 个 函数 用 来 计算 在 局 部 黎 曼 问题 中 的 最 大 特征 值 ， 此 特征 

值 将 在 接 下 来 的 计算 中 求解 最 大 稳定 时 间 步 长 (compute deltat.c:159)。 

e hydro godunov() : 这 是 更 新 操作 中 的 最 高 层 例 程 ， 其 调用 几乎 所 有 的 下 级 函数 
以 复制 数据 到 slab ， 计 算 更 新 ， 写 回 。 这 个 函数 的 一 个 参数 控制 哪 一 个 维度 将 会 被 忆 
Jj (hydro godunov.c:62), 
gatherConservativeVars() : 将 解 从 子 区 域 解 网 格 复制 到 slab AY conservation 
变量 (conservar.c: 48) 中 存储 。 

e constoprim() : (部 分 地 ) 将 slab 中 conservation 变量 转变 为 流量 计算 所 需要 的 基 

本 形式 (constoprim.c:48), 

equation of state() : 使 用 constoprim() 函数 的 结果 加 上 conservative 变 

量 中 保存 的 E 项 以 完成 最 后 初始 的 变量 p， 在 slab 的 专用 存储 中 完成 这 里 所 有 操作 

(equation of state.c:48), 

e slope(): 检查 临 接 单元 格 的 值 ，( 以 基本 的 形式 ) 计算 (或 限制 ) 斜率 。 此 斜率 将 
用 于 接 下 来 的 流量 计算 。 这 份 代码 使 用 了 Leer 的 MC 限制 器 (slope.c:52), 

e trace () : 将 计算 出 来 的 斜率 应 用 到 每 个 单元 格 上 的 终止 点 上 (trace.c:51), 

e qleftright() : 将 trace () 的 结果 复制 于 独立 缓冲 区 上 ,为 riemann () 做 准备 
(qleftright.c:48), 

e riemann () riemann() KÄ EM EIR MIZO; 这 个 图 数 是 一 个 用 于 解决 中 间 态 压 

力 的 标量 非 线性 系统 。 这 个 函数 用 Newton-Raphson 方法 进行 求解 。 余 下 的 术语 是 从 

压力 计算 中 产生 的 (riemann.c:80), 

cmpflx(): 使 用 Riemann () 计算 的 中 间 态 和 周围 状态 计算 差 值 ， 并 转变 为 con- 

servation 流量 (cmpflx.c:51), 

e updateConservativeVars() : 使 用 邻接 的 流量 来 积分 单元 格 ， 同 时 将 结果 复制 
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回 全 局 解 网 格 (conservar.c:122) 中 。 

slab 例 程 gatherConservativeVars() if tf updateonservative-vars() 能 
够 使 用 “ 块 同步 并 行 ” 方 式 相继 操作 。 这 些 孔 数 能 够 组 织 成 无 数据 相关 性 的 形式 (对 于 每 个 
因数 使 用 输入 /输出 存储 )， 所 以 每 个 函数 都 暴露 出 线程 和 数据 并 行 的 可 能 性 〈 通 过 OpenMP 
和 目 动 回 量化 )。 这 就 是 计算 这 些 块 的 地 方 ， 同 时 hydro_godunov () 是 这 些 单元 格 的 调用 
框架 。 图 2-7 展示 了 在 一 维 切片 上 计算 时 这 些 结构 和 数据 流 的 情况 。 

compute deltat() 类 似 地 使 用 slab ASH E IRRU SS (包括 equation of _ 
state() )， 这 些 中 间 状 态 最 终 要 得 到 最 大 特征 值 ， 这 些 特征 值 是 归 约 得 到 的 。 这 些 slab 步 
具有 与 上 述 相同 的 线程 级 和 数据 级 并 行 性 。 


ipn RR ng 
uitia t ttt W 


~“ yslab0 y slab 1 y slab 2 





“= slab 存储 9 x 3) eom X 7 PF 


图 2-6 这 张 图 展示 了 基于 slab 的 Godunov 调度 方法 是 如 何在 slab 上 移动 并 计算 
数据 的 。 注 意 ， 图 中 的 列 的 “复制 ”只 是 在 表达 时 间 序 列 而 不 是 真 的 复 
制 一 一 这 里 一 个 slab 和 一 个 网 格 参与 运算 


测试 性 能 

当然 ， 本 章 的 目的 是 提升 Hydro2D 代码 的 性 能 而 不 是 进行 新 的 科学 实验 。 我 们 最 关注 
的 是 某 些 特定 性 能 的 值 ， 这 些 性 能 需要 能 够 代表 在 实验 中 程序 的 运行 情况 。 

对 于 我 们 的 程序 来 说 ， 测 量 这 些 值 非常 简单 : Hydro2D 的 性 能 很 大 程度 上 独立 于 初始 
值 和 边界 条 件 的 值 ， 所 以 我 们 不 必要 对 测试 问题 做 出 特定 的 限制 。 尽 管 在 黎 曼 问题 求解 大 中 
使 用 的 Newton-Raphson 迭代 有 控制 流 的 出 现 ， 因 为 这 些 流量 的 计算 会 依赖 于 输入 ， 所 以 这 
些 控制 流 会 增加 流量 计算 的 运行 时 间 ， 但 是 这 个 只 对 极端 情况 有 意义 。 
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图 2-7 1D 坡度 限制 Godunov TRP JE AM In] Bis s D Eng S b FA RHE E 2b RT DY RE, R 
色 箭 头 表示 第 一 个 单元 格 (xixzo) 间 的 依赖 性 


为 了 了 解 代码 对 问题 规模 的 敏感 度 ， 我 们 将 探索 不 同 规模 的 问题 ， 并 且 正 规 化 我 们 的 实 
验 结果 到 每 个 单元 格 在 每 个 时 间 步 长 所 花 的 时 间 。 每 步 所 花 的 时 间 由 稳定 性 条 件 所 表述 ， 而 
所 谓 稳 定性 条 件 就 是 解 状 态 和 网 格 空间 的 

只。 这 就 意味 着 两 个 不 同 的 初始 条 件 可 xis 
能 需要 不 同 的 步 数 以 达到 给 定时 间 的 
仿真 。 

图 2-8 展示 了 参考 代码 中 单元 格 步 / 秒 
的 性 能 。 处 理 器 的 性 能 是 协 处 理 器 的 两 倍 
多 ， 协 处 理 器 的 并 行 效率 非常 差 。 


2.4.3 优化 00 | : i 
128 256 512 1024 2048 4096 8192 
尽管 支持 并 行 ， 但 原始 代码 的 性 能 非 线性 网 格 维度 中 的 单元 


常 糟 糕 。 就 像 我 们 将 要 展示 的 ， 程 序 效率 2-8 Hydro2D 参考 代码 在 处 理 带 和 协 处 理 右 上 
低 的 部 分 原因 是 一 些 代 码 中 高 级 的 、 概 念 每 个 网 格 步 / 秒 上 的 性 能 
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性 的 结构 在 运行 的 时 候 效 率 不 高 ， 也 因为 代码 转化 的 效率 并 不 好 。 就 像 加 一 句 #pragma 
omp parallel for 并 不 保证 循环 的 并 行 执 行 效率 ，#pragma vector 也 并 不 一 定 意味 
着 高 效 的 向量 化 。 

我 们 将 展示 这 份 代 码 中 的 不 足 之 处 同时 也 将 想 办 法 改进 这 些 不 足 。 

优化 代码 通常 所 需要 注意 的 事项 。 这 里 展示 的 优化 代码 将 原来 代码 的 结构 和 格式 与 原始 代 
码 做 了 一 些 分 离 。 这 些 改变 并 没 直接 影响 性 能 ， 这 将 会 让 代码 的 清晰 性 和 可 维护 性 得 到 提高 。 

e 文件 结构 重新 整理 过 : 核心 例 程 位 于 pcl-hydro-core.cpp 和 pcl-hydro-vcore. 
cpp 中 ， 同 时 实用 例 程 移 到 了 pcl-hydro-util.cpp 和 pcl-hydro-params. 
cpp 中 。 最 高 层 的 驱动 写 人 run-tile.cpp 中。 

为 了 提高 清晰 性 ， 一 些 标识 符 已 重 命名 ( 即 ,constoprim() 重 命名 为 conservative - 

to primitive()), equation of state() 分 为 equation of state() 和 

speed_of sound() ， 以 此 来 区 分 它们 的 不 同 用 途 。 

REAL T 被 引入 到 代码 中 ， 此 类 型 代替 原 有 single 和 double 类 型 。 

在 参考 代码 Hydro2D 中 ， 大 多 数 函 数 中 使 用 iaim 参数 以 控制 调整 数据 访问 (特别 

是 ,在 当前 维度 方向 上 ，pu、pv 必须 分 别 对 待 )。 在 优化 代码 中 ， 多 数 分 支 被 如 下 方 

式 所 取代 : 按 正确 顺序 把 未 知 项 的 数组 按 (rho, rhou, rhov, E) 传递 给 被 调用 函数 ， 

而 不 是 使 用 模糊 的 多 维 数组 u。 

e 占 位 从 函数 my_sqrt () 和 rcp() 被 sqrt 和 1/<x> 所 代 蔡 ,这 样 在 选择 执行 何 
种 操作 时 ， 提 供 了 更 加 有 弹性 的 选择 。 

e 原始 代码 中 的 一 些 常 数 也 被 重 写 ， 比 如 Hgamma 被 GAMMA 所 替代 。 

e 栈 分 配 变量 和 函数 参数 尽 可 能 以 const 修饰 。 


2.4.4 内 存 使 用 


在 原始 的 代码 中 ，slab 方法 使 用 的 类 GPU 内 存 模型 ， 这 种 方法 并 没 充 分 利 现代 系统 的 
内 存 层 次 结构 。 

从 slob 复制 进 和 复制 出 数据 的 开销 并 不 能 与 其 他 计算 重 王 ， 而 且 这 种 操作 计算 密度 较 
低 。 更 糟糕 的 是 ，slab 计算 使 用 了 很 多 中 间 变 量 ， 这 些 中 间 变 量 急剧 提升 了 内 存 占用 率 。 这 
些 问题 有 时 可 以 通过 中 间 存 储 的 重用 得 到 缓解 ， 但 是 在 每 次 更 新 中 对 小 区 域 的 依赖 性 表明 应 
该 使 用 不 同 的 方法 解决 这 个 问题 。 

完善 compute_deltat()。 独 立 计算 每 个 时 间 步 长 会 导致 性 能 下 降 ， 除 此 之 外 ， 因 为 
安全 地 进入 和 退出 遍历 需要 使 用 同步 ， 所 以 它 需 要 重读 整个 网 格 并 降低 速度 ; 这 也 会 成 为 巨 
大 的 损失 。 

事实 上， 时间 步 长 的 计算 只 在 计算 开始 阶段 和 在 奇数 步 中 遍历 x 轴 后 才 会 发 生 。 除 第 一 
次 之 外 ，compute_deltat () 函数 将 读 取 的 数据 和 奇数 步 后 x 轴 遍 历 最 后 一 部 分 积分 的 数 
据 是 相同 的 ， 积 分 后 计算 决定 每 个 单元 格 中 最 大 传播 速度 ， 而 最 大 传播 速度 决定 了 固定 时 间 
步 长 。 

全 局 最 大 速度 的 归 约 的 计算 可 以 作为 work-sharing 的 一 部 分 ，work-shareing 是 在 每 次 
更 新 步 中 都 要 做 的 工作 。 在 遍历 时 每 个 线程 独立 地 计算 并 本 地 归 约 所 需要 的 最 大 速度 ， 同 时 
时 间 步 循环 可 以 在 线程 专 有 的 值 上 协调 一 个 全 局 归 约 。 如 果 通 信 成 本 占 了 主要 消耗 ， 此 操作 
可 使 用 树 形 结构 实现 。 
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通过 结合 compute deltat () 和 积分 步 ， 可 减少 网 格 遍历 和 同步 的 伦 销 。 
旋转 更 新 。 图 2-7 中 垂直 箭头 展示 了 流量 计算 和 积分 在 步 间 的 依赖 性 ; 对 于 计算 网 格 的 
一 维 的 行 (或 者 列 )， 这 里 既 有 重用 ,但 也 有 依赖 性 的 “窗口 ”。 
沿 着 每 个 网 格 strip 通过 使 用 “旋转 ”以 完全 重用 中 间 计 算 和 最 小 化 中 间 存 储 是 可 行 的 。 
e 首先 ， 更 新 中 的 全 部 的 slab 变量 被 “收缩 *”， 即 ，constoprim()/conservative 
to primitive(), slope(), trace(), riemann(), cmpflx() æ 
updateConservativevars () /update () ; gleftright () 除了 复制 数据 并 没有 
真正 工作 , 我 们 将 其 移 除 。 这 些 函 数 同时 在 一 个 单元 格 中 运行 ; 同时 这 些 函 数 使 用 子 问 
题 所 需要 的 最 少 输入 集合 ， 并 且 通 过 输出 参数 返回 结果 的 向 量 值 。 
在 strip 更 新 开始 的 时 候 ，priming 阶段 使 用 边界 条 件 (通过 调用 set boundaries () )， 
即 装 载 合适 的 conservative 变量 ， 接 着 计算 决定 左边 界 流量 所 需要 的 数据 ( 即 ， 图 2-7 
中 在 ww 处 的 流量 ) 一 一 所 有 有 用 的 中 间 值 保存 在 环形 缓冲 区 中 ， 这 些 值 可 能 要 用 于 之 
后 网 格 的 更 新 ， 同 时 所 有 其 他 中 间 值 被 舍弃 。 参 考 strip_prime() (K 2-10, 参考 
图 2-9 中 的 描述 ) 实现 这 部 分 代码 。 
e 之 后 ， 为 了 更 新 strip 中 所 有 网 格 ， 在 stable 阶段 ， 加 载 环 形 缓冲 区 存储 的 数值 
和 strip 中 接 下 来 需要 的 conservative 变量 ， 接 着 计算 下 一 次 流量 计算 所 需要 中 间 
值 。 前 一 步 中 的 流量 和 最 新 计算 的 流量 在 图 2-7j 阶段 结合 在 一 起 ， 用 于 更 新 当前 的 
网 格 ， 同 时 把 未 来 stable 步 所 需要 的 中 间 值 放置 进 了 环形 缓冲 区 中 。 参 考 strip 
stable() (WIA 2-11). 
2-7 RIH, Æ B 2-7i P XT x; A Dic Te B5 A BA Fe B Ze B 2-7 Br E PB — $6 
primitive 变量 的 运算 一 一 最 后 结合 四 个 值 算 出 结果 。 因 此 没有 环形 缓冲 区 包含 多 于 四 个 值 ， 
这 就 保持 了 中 间 存 储 的 成 本 较 低 。 


struct strip work 


REAL T flux [4][2]; // flue at i-1/2, i*1/2 


REAL_T left flux [4] [2]; // left flue at 4, i*1 
REAL T prim [5] [3]; // prim for i, t+1, i42 


E 





图 2-9 在 strip prime() 和 strip stable() 中 旋转 更 新 结构 


2.4.5 ”线程 级 并 行 


在 参考 代码 中 ， 线 程 级 并 行 只 发 生 在 slab 的 了 维度 上 或者“ 高” 维度) (回想 图 2-6 ), 
这 对 并 行 有 很 大 限制 。 

slab 调度 策略 中 在 存储 、 通 信和 负载 均衡 上 的 消耗 表明 原始 方案 并 不 如 意 ， 需 要 改进 。 
我 们 将 参考 代码 转换 为 称 为 块 (tiling) 的 域 分 解 方法 。 参 考 图 2-12， 这 是 一 个 图 片 解释 。 

仿真 网 格 沿 着 x 和 ?了 维度 被 切割 成 一 系列 矩形 小 块 ， 这 些小 块 被 分 配给 线程 。 这 个 调度 
方案 并 不 要 求 一 对 一 的 线程 与 块 的 映射 ， 但 是 我 们 现 有 的 实现 只 支持 一 对 一 的 情况 。 每 个 小 
块 对 于 它 的 子 域 、 维 度 、stride 和 其 他 需要 记录 的 信息 ， 有 一 套 独立 分 配 的 一 套 解 和 变量 CS 
见 图 2-13 )。 

halo 区 。 每 个 小 块 维护 了 四 个 halo 区 (在 x 和 ?7y 方 回 上 分 别 有 两 个 halo 块 )， 这 些 区 
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域 的 宽度 是 2， 这 有 利于 提升 块 与 块 间 的 通信 效率 和 应 用 边界 条 件 (将 这 个 条 件 应 用 到 和 原 
始 网 格 共享 边 的 块 上 )。 这 就 是 在 块 中 的 {x,y}_{y,var}stride fl (x,y) edges 域 。 


1 void strip prime(strip work *restrict sw, 

2 const REAL T *restrict rho, 

3 const REAL_T *restrict rhou, 

4 const REAL T *restrict rhov, 

5 const REAL T *restrict E, 

6 const hydro  *restrict h, 

7 const int stride, 

8 const REAL T dtdx) 

9 { 

10 REAL T pre prim[5][4]; // i-2, i-1, i, i*1 

11 for(int i = 0; i < 4; ++i) 

12 1 

13 const int src offs = (- 2 + i)*stride; 

14 REAL T E internal; 

15 conservative to primitive(pre prim[0] +i, pre prim[4] +i, pre prim[1] +i, 
pre prim[2] +i, &E internal, 

16 rho[src. offs], rhou[src ofífís], 

rhov[src offs], E[src offs)]); 
17 pre prim[3][i] = equation of state(pre prim[O][i], E internal); 
18 } 


20 REAL T pre_dvar[4][2]; // i-1, i 

21 if(h->iorder != 1) 

22 for(int i = 0; i < 2; ++i) 

23 for(int v = 0; v < 4; ++ v) 

24 pre . dvar[v][i] = slope(pre_prim[v] [0+i], pre_prim[v] [iti], 
pre prim[v][Í2*i], h->slope_type, h->inv_slope_type); 


25 
26 REAL_T pre left flux [4][2]; // i-1, i 
27 REAL T pre right flux[4][2]; // i-1, i 
28 for(int i = 0; i < 2; ++i) 
29 1 
30 const REAL T prim c = speed of sound(pre prim[4][i + 1], pre prim[3][i*11]) 
31 trace(pre left flux [0] * i, pre left flux [1] + i, 
pre left flux [2] * i, pre left flux [3] * i, 
32 pre right flux[0] + i, pre right flux[1] + i, 
pre right flux[2] * i, pre right flux[3] * i, 
33 pre_prim [0] [i*1], pre prim[4][i*i], pre prim[1] [i141], 
pre prim[2] [i*1], pre prim[3] [i*1], 
34 pre_dvar [0] [1]. pre dvar [1] eo 
pre_dvar [2] [i], pre_dvar [3] cae 
prim c, rep(prim_c), 
dtdx); 
} 


REAL_T gdnv_rho, gdnv_u, gdnv_v, gdnv_p; 
riemann(&gdnv_rho, &gdnv_u, kgdnv v, &gdnv p, 
pre left flux [0][0], pre left flux [1][0], pre left flux [2][0] ， 
pre left flux [3][0], 
42 pre right flux[0][1], pre right flux[1][1], pre right flux[2][1], 
pre. right flux[3][1]); 


43 

44 cmpflx(sw-»flux[0] + 0, sw->flux[i] + 0, sw-»flux[2] + 0, sw->flux[3] + 0, 
45 gdnv_rho, gdnv_u, gdnv_v, gdnv_p); 
46 

47 for(int v = 0; v < 4; ++ v) 

48 sw-»left flux[v][0] = pre left flux[v][1]; 

49 

50 for(int v = 0; v < 5; ++ v) 

51 1 

52 sw-»prim[v][0O] = pre_prim[v] [2]; 

53 sw-»prim[v][1] = pre_prim[v] [3]; 

54 } 


图 2-10 WH d PRIM, BSA 2-9 对 strip work() 函数 的 表述 
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REAL_T strip_stable(const hydro *restrict h, 


REAL_T *restrict rho, 

REAL, T *restrict rhou, 

REAL T *restrict rhov, 

REAL T *restrict E, 

strip work  *restrict sw, 

const int is 

const int stride, 

const REAL_T dtdx, 

const bool do_courant ) 
const int src_offs = (i + 2)*stride; 


REAL_T E_internal; 
conservative_to_primitive(sw->prim[0] + 2, sw->prim[4] + 2, sw->prim[i] + 2, 
sw-»prim[2] + 2, &E_internal, 
rho[src_offs], rhou[src_offs], 
rhov[src offs], E[src offs]); 
sw->prim[3][2] = equation of state(sw-»prim[0][2], E internal); 


REAL. T dvar[4]; // slope for i*1 
if(h-»iorder != 1) 
for(int v = 0; v < 4; ++ v) 
dvar[v] = slope(sw-»5prim[v][0], sw->prim[v] [1], sw->prim[v][2], h-> 
slope type, h->inv_slope_type) ; 


REAL_T right_flux [4]; 
const REAL T prim c = speed of sound(sw-»prim[4][1], sw->prim([3][1]); 


trace(sw-»left flux [0] + 1, sw-»left flux [1] + 1, sw-> 
left flux [2] + 1, sw-»left flux [3] + 1, 

right flux + 0, right flux + 1, right flux 
+ 2; right_flux + 3, 

sw->prim [0] [1], sw-»prim[4][1], sw->prim[1] [1], sw->prim 
[2] [1], sw-»prim[3] [1], 

dvar [0], dvar[1], dvar[2], 

dvar[3], 
prim c, rcp(prim c), 
dtdx); 


REAL T gdnv rho, gdnv u, gdnv v, gdnv p; 
riemann(&gdnv rho, &gdnv u, &gdnv v, & 
gdnv p, 
sw-»left flux [0][0], sw-»left flux [11[0], sw-»1left flux [2] [0] sw-> 
left fiux [3] [0], 
right flux[0], right flux[1], right flux[2], 
right flux[3]); 


cmpflx(sw->flux[0] + 1, sw->flux[i] + 1, sw->flux[2] + 1, sw->flux[3] + 1, 


gdnv_rho, gdnv_u, gdnv_v, gdnv p); 

const REAL T new rho = update(rho [i*stride], sw->flux [0] [0] , sw->flux[0] [il], 
dtdx); 

const REAL T new rhou = update(rhou[i*stride], sw->flux[1] [0], sw->flux([1] [1], 
dtdx); 

const REAL T new rhov = update(rhov[i*stride], sw-»flux[2][0], sw-»flux[21[11], 
dtdx); 

const REAL T new E - update(E [i*stride], sw->flux[3][0], sw->flux[3] [1], 
dtdx); 


REAL_T courantv = (REAL 
if (do_courant) 


{ 


T) 0.0; 


REAL T prim rho, prim inv rho, prim u, prim v, E internal; 
conservative to primitive(£prim rho, £&prim inv rho, £prim u,  £prim v, & 
E internal, 


new rho, new rhou, new rhov, 
new E); 
const REAL T prim p = equation of state(prim rho, E internal); 
const REAL T prim c - speed of sound (prim inv rho, prim p); 


图 2-11 旋转 更 新 稳定 状态 函数 。 参 考 2-9 X strip work () 函数 的 表述 
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courant (&courantv, prim_u, prim_v, prim_c); 


} 


rho [i*stride] 
rhou[i*stride] 
rhov[i*stride] 
E [i*stride] 


new rho; 

new rhou;j 
new rhov; 
new E; 


for(int v = 0; 


{ 


< 4; ++ v) 


< 


sw->flux [v] [0] sw->flux [*1 E11j 
sw->left_flux[v] [0] sw->left_flux[v] [i]; 
} 
for(int v ; v < 5; ++ v) 
{ 
sw-»prim[v][0] = sw->prim[v] [1]; 
sw-»prim[v][1] = sw->prim[v] [2]; 


} 


return courantv; 





图 2-11 (£4) 


每 个 块 和 它们 自己 的 网 格 (有 更 小 的 维度 ) 有 相同 的 运行 模式 ; 更 新 时 使 用 与 其 所 在 网 
格 相同 的 顺序 ， 同 时 每 个 块 分 别 独立 计算 x 轴 和 了 轴 遍历 。 当 一 个 过 有 历 运 算 完 成 时 ， 有 必要 
通过 使 用 send (1ow,high) {x,y}_edge() 函数 使 用 最 新 的 积分 数据 更 新 它们 临近 的 
单元 格 。 在 x 轴 遍历 开始 之 前 ，x halo MA PACH, TAFE, 在 y fs IP UR BU, y halo 也 必 
须 被 交换 。 时 间 步 长 计算 作为 x 轴 遍历 在 奇数 时 间 步 中 的 一 部 分 将 在 本 地 完成 ， 而 且 规 约 要 
在 所 有 的 块 间 实 现 〈 见 图 2-14 一 图 2-16). 

减少 通信 。 为 了 最 小 化 通信 开销 和 块 间 的 伪 分 享 问 题 ， 我 们 分 配 每 个 halo KAY, ike 
们 与 自己 和 其 他 块 不 共享 缓存 块 。 然 后 ， 在 每 个 通信 阶段 ， 每 个 块 将 复制 它 自己 的 边 域 ( 宽 
度 是 2 ) 给 对 应 的 邻居 。 


[(n,-2)/3] 


[(n,-1)/3] 





[ (n,-0)/3] 





[( 22d ys] [( iud " on _2)7] 
图 2-12 HDE: 整个 区 域 被 分 割 成 网 格 状 的 子 区 域 ， 每 个 子 区 域 都 和 原来 一 样 运作 (除了 halo 区 
(或 者 ghost 区 )， 这 些 区 域 和 邻近 块 的 更 新 信息 形成 分 解 的 内 部 填充 ) 
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truct hydro_decomp 


struct tile 
{ 
int position [2]; 
tile *neighbors[4]; // w, e, 


int offset [2]; 
int n[2]; 


int ystride; 
int varstride; 


int x_e_ystride; 
int x e varstride; 
REAL T *x_edges [2]; 


int y.e.ystride; 
int y.e varstride; 
REAL T *y edges[2]; 


REAL T *q; 
REAL T *rho; 
REAL T *rhou; 
REAL T *rhov; 
REAL T *E; 


decomp [2]; 
ntiles; 
tile *tiles; 





图 2-13 Hydor 计算 块 的 数据 结构 


1 REAL. T x step(hydro decomp *hd, const hydro *restrict h, const REAL T dtdx, int 
tid, bool do, courant) 

2 t1 

3 return tile x step(hd-^5tiles + tid, dtdx, h, 0, hd->tiles[tid].n[1i], 

do courant); 

4 } 

5 

6 REAL_T tile_x_step(tile *restrict tl, const REAL_T dtdx, const hydro *restrict h, 
int jstart, int jend, bool do_courant) 


static const REAL_T x_signs [4] 


REAL T courantv - 0.0; 
for(int j = jstart; j < jend; ++j) 
1 
const int ob = (j + 2) * tl-»ystride + 0; 
if (tl->neighbors [0]) 
{ 
for(int v = 0; v < 4; **v) 


{ 


tl->q[v*tl->varstride + ob + 0] = tl->x_edges [0] [v*tl-> 
x_e_varstride + j * tl->x_e_ystride + 0]; 

tl->q[v*tl->varstride + ob + 1] = tl->x_edges [0] [v*tl-> 
x_e_varstride + j * tl->x_e_ystride + 1]; 


} 
else 
set_boundaries(tl->q + ob, 





Al 2-14 x strpflültile x step; 执行 给 定 块 x 轴 遍 历 的 代码 。 同 时 包含 
归 约 /返回 时 间 步 长 计算 遇 到 的 最 大 特征 值 
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varstride); 


if(tl-»neighbors[1]) 
1 
for(int v = 0; v < 4; **v) 


1 


tl->q[v*tl->varstride + ob + tl->n[0] + 2 + 0] = tl1-»x edges[1][v* 
tl->x_e_varstride + j * tl->x_e_ystride + 0]; 

tl->q[(v*tl->varstride + ob + tl-»n[0] + 2 + 1] = tl->x_edges [i] [v* 
tl->x_e_varstride + j * tl->x_e_ystride + 1]; 


} 
else 
set_boundaries(tl->q + ob + tl->n[0] + 3, x signs, 2, -1, 
varstride); 


const int o = ob + 2; 

strip_work sw; 

strip prime(£sw, tl->rho + o, tl->rhou + o, tl->rhov + o, tl->E + o, h, 
1, dtdx); 


for(int i = 0; i+ 1 <= tl-»n[0]; ++i) 
{ 
const REAL T cv = strip stable(h, tl->rho + o, tl-»rhou + o, tl->rhov 
+ o, tl->E + o, &sw, i, 1, (REAL.T) dtdx, do. courant); 
courantv = std::max(courantv, cv); 


} 


return courantv; 





图 2-14 (ZA) 


void y_step(hydro_decomp *hd, const hydro *restrict h, const REAL_T dtdx, int 
tid) 

1 
tile y step(hd-»tiles + tid, dtdx, h, 0, hd->tiles[tid].n[0]); 

} 


void tile y step(tile *restrict tl, const REAL T dtdx, const hydro *restrict h, 
int istart, int iend) 

{ 
static const REAL T y signs[4] = {1.0, 1.0, -1.0, 1.0}; 


for(int i = istart; i+ 1 <= iend; ++i) 
1 
const int ob = i + 2; 
if (tl->neighbors [2]) 
{ 
for(int v = 0; v < 4; ++v) 


{ 


tl->q[v*tl->varstride + ob ] = tl->y_edges [0] [v*tl 
->y_e_varstride + iJ]; 

tl-»q[v*tl-»varstride + 1*tl->ystride + ob] = tl->y_edges [0] [v*tl 
-»y.e varstride + 1*tl->y_e_ystride + i]; 


} 
else 
set_boundaries(tl->q + ob, y.signs, 2, tl 
-»ystride, 4, tl->varstride) ; 


if (tl-»neighbors[3]) 
£ 
for(int v = 0; v < 4; ++v) 
{ ú 
tl->q[v*tl->varstride + (2 + tl->n[1])*tl->ystride + ob] 





K| 2-15 y step() 和 tile y step(); 代码 用 于 执行 一 个 块 的 y 轴 遍历 
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y_edges [1] [v*tl->y_e_varstride * 1313 
tl-»q[v*tl-»varstride + (3 + tl->n[i])*tl->ystride + ob] = tl-> 
y_edges [1] [v*tl->y_e_varstride + 1*tl->y_e_ystride + i]; 


} 
else 
set_boundaries(tl->q + ob + (tl-»n[1] + 3)*tl->ystride, y signs, 2, - 
tl->ystride, 4, tl->varstride) ; 


const int o = ob + 2 * tl-»ystride; 
strip_work SW; 
strip_prime(&sw, tl->rho + o, tl->rhov + o, tl->rhou + o, tl->E + o, h, 
tl-»ystride, dtdx); 
for(int j = 0; j < t1-»n[1]; **j) 
strip stable(h, tl->rho + o, tl->rhov + o, tl->rhou + o, tl->E * o, & 
sw, j, tl->ystride, dtdx, false); 





图 2-15 (4) 


线程 必须 明确 它们 之 间 的 通信 以 协调 halo 区 域 的 交换 和 计算 固定 时 间 步 长 ; 为 了 尽 可 
能 避免 每 次 遍历 的 全 局 同步 ， 每 个 线程 在 一 个 块 上 工作 时 ， 这 个 块 只 通过 点 对 后 的 同步 与 其 
他 邻居 块 上 工作 的 线程 同步 。 其 至 固定 时 间 步 长 的 计算 中 全 局 归 约 可 以 用 避免 通信 的 树 形 归 
约 来 实现 。 


hydro H; 
load hydro params(E£H, input file, quiet); 
const int nthreads - omp get max threads(); 


init hydro (&H) ; 
hydro decomp HD; 
init hydro decomp(E£HD, &H, nthreads, quiet); 


DO on BD Ul fF WN = 


REAL_T dt = compute_timestep(&H) / (REAL_T) 2.0; 

REAL_T dt_dx = dt/H.dx; 

set_scheme(H.scheme, dt_dx); 

// align and pad shared courantv array to avoid false sharing 
REAL. T *courantv = (REAL T*) mm malloc(64 * nthreads, 64); 
const int cache stride - 64/sizeof (REAL T); 


*pragma omp parallel 
1 


const int tid - omp get thread num(); 
barrier.init(tid); 


send low x edge (HD.tiles tid); 

send high x edge(HD.tiles tid); 
send low y edge (HD.tiles tid); 

send high y edge(HD.tiles tid); 
barrier.wait(tid); 

while(H.step « H.nstepmax && H.t « H.tend) 
{ 


barrier.wait (tid); 
if(tid == 0) 
H.t += dt; 


if(H.step % == 0) 

{ 
send_low_x_edge (HD.tiles + tid); 
send_high_x_edge(HD.tiles + tid); 
barrier.wait (tid); 
x step(£HD, &H, dt dx, tid, false); 
barrier.wait(tid); 





图 2-16 Sb Hydro2D 代码 的 时 间 步 长 循环 
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send low y edge (HD.tiles + tid); 
send high y edge(HD.tiles + tid); 
barrier.wait(tid); 

y_step(&HD, &H, dt dx, tid); 


send low y edge (HD.tiles * 

send high y edge(HD.tiles + 
barrier.wait(tid); 

y_step(&HD, &H, dt dx, tid); 
barrier.wait(tid); 
send low x edge (HD.tiles + tid); 
send high x edge(HD.tiles + tid); 
barrier.wait(tid); 
courantv[tid*cache stride] = x step(E£HD, &H, dt dx, tid, true); 
barrier.wait(tid); 

if(tid == 0) 

{ 


// serial reduction among threads; tree scheme suitable for 
Large number of threads 
for(int i = 1; i < nthreads; ++i) 
courantv [0] = std::max(courantv[i*cache_stride], courantv 
[0] ) ; 


dt - H.courant number * H.dx / courantv[0]; 


dt dx dt/H.dx; 
set scheme(H.scheme, dt dx)) 
l 
} 
barrier.wait (tid) ; 


} 





} 
Al 2-16 (£x) 


点 对 点 同步 和 树 形 归 约 对 于 交叉 开关 阵列 和 少数 的 多 核 系统 的 影响 不 是 那么 大 ， 但 是 
全 局 栅栏 的 代价 是 随 着 处 理 器 的 数量 以 O(logn) 的 量 级 增长 的 ， 随 着 越 来 越 多 的 内 核 搭 载 到 
处 理 器 上 ， 其 性 能 可 能 将 会 因为 非 一 致 内 存 访问 (NUMA) 而 受到 更 大 的 有 影响。 交换 缓存 和 
halo 区 是 有 存储 代价 的 ， 不 过 对 于 一 个 大 规模 网 格 来 说 这 些 代 价 是 微不足道 的 ， 甚 至 ， 在 一 
个 240 线程 的 协 处 理 器 上 这 些 消 耗 也 是 非常 小 ， 同 时 ， 相 比 于 slab 所 需要 的 大 规模 中 间 存 
储 ， 这 些 消耗 也 很 小 。 
继续 优化 。 刚 刚 提 到 的 优化 结果 ( 相 比 于 参考 代码 ) 在 图 2-17 中 呈现 。 相 对 于 图 2-8 中 
参考 代码 的 性 能 ， 这 展示 了 对 于 处 理 器 和 协 处 理 器 使 用 固定 时 间 步 ， 旋 转 更 新 和 块 的 
应 用 之 后 ， 优 化 后 代码 的 性 能 (用 时 间作 
为 参考 量 )。 到 此 为 止 ， 处 理 器 的 性 能 提 
高 了 2 一 3.3 倍 和 协 处 理 器 的 性 能 提高 了 
2.3 ~ 3.6 倍 。 这 表明 在 这 个 计算 环境 中 ， 
合理 使 用 线程 和 内 存 子 系统 可 以 在 代码 和 
架构 上 有 更 多 收益 。 就 像 我 们 马上 要 看 到 
的 ， 我 们 将 会 得 到 更 多 有 益 的 东西 。 
| ij Ha 


24.6 ”算术 效率 和 指令 级 并 行 lé Hu HE HE S E 
128 256 512 1024 2048 4096 8192 


现代 处 理 器 的 微 架构 是 非常 精细 的 ， 线性 网 格 维度 中 的 迭代 
但 掌握 一 定 基础 后 就 可 以 依照 此 进行 优化 。 图 2-17 参考 代码 的 性 能 和 线程 / 访 存 改进 后 的 性 能 
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记 住 。 除 法 和 超越 数学 函数 对 计算 机 而 言 代 价 是 很 高 的 ， 即 便当 直接 被 指令 集 支 持 时 ， 
也 是 这 样 ， 它 们 通常 会 比 乘法 和 除法 慢 1 ~ 2 个 数量 级 。 这 份 参考 Hydro2D 代码 使 用 了 很 
多 除法 和 开 方 操作 ， 这 些 操作 占据 了 程序 大 量 的 运行 时 间 。 硬 件 中 执行 这 些 操作 的 功能 单元 
可 成 为 运算 流水 线 的 瓶颈 ， 它 会 限制 吞吐 量 和 指令 级 并 行 。 

因为 这 些 操作 如 此 昂贵 ， 同 时 一 些 平方 根 和 除法 要 重复 多 次 计算 ， 所 以 一 些 经 常 使 用 
的 什 可 以 之 前 就 计算 好 。 在 原始 代码 中 ，constoprim() equation of state() 和 
trace() 都 是 p Ale (声音 的 本 地 速度 ) 相 除 许多 次 的 操作 。 可 以 计算 它们 的 倒数 并 把 结果 
记录 下 来 用 于 之 后 的 流量 计算 。 除 此 之 外 ， 相 对 于 除法 ， 使 用 倒数 和 乘法 在 现代 操作 系统 中 
更 快 。 要 知道 很 多 编译 希 出 于 精度 考虑 不 会 自动 做 这 样 的 转换 。 


1 int goon = 1; 
2 int iter; 
3 for (iter = 0; iter < Hniter riemann ; iter-**) { 
if (goon) 1 
double wwl, wwr; 


wwl = sqrt(cl_i (one + gamma6 * (pstar_i - pl_i) pi _i)); 


* 

wwr = sqrt(cr i * (one + gamma6 * (pstar i - pr i) pr.iJ)2; 
* 
* 


double ql = two wwl * Square(wwl) / (Square (wwl) cl i); 

double qr - wwr * Square(wwr) / (Square(wwr) cr i); 

double usl = ul i - (pstar i - pl i) / ww1; 

double usr - ur i * (pstar i - pr i) / wwr; 

double delp_i = MAX((qr * ql / (qr + ql) * (usl - usr)), (-pstar i)); 
pstar_i = pstar i + delp i; 

// Convergence indicator 

double uo i = DABS(delp i / (pstar i + smallpp)); 

goon = uo i > PRECISION; 





图 2-18 参考 riemann() 中 Newton-Raphson 循环 的 核心 


分 解 。Hydro2D 代码 最 核心 的 部 分 ( Newton-Raphson 迭代 , MF riemann.c'P) A 8 
次 除法 ; 参考 图 2-18。 使 用 欠 代 中 简单 的 代数 操作 ， 我 们 能 够 减少 这 些 操作 的 数量 。 检 查 迭 
代 的 更 新 Ap*， 我 们 将 会 看 到 表达 式 ( 从 图 2-18 中 第 15 行 开 始 )。 
_ 9,4 (uj -uw) 





; ( 2-3a) 
(q, tq) 
其 中 ， 
2w, 
di = 75 ( 2-3b) 
w, tc, 
€, = YP; P, ( 2-3c) 
i p-p 
Ul mug ( 2-3d) 
Wi 
o 2w (2 3 ) 
as w^ +c, ions 
c, = Yp,p, ( 2-3f) 
‘ P — p; 
= 十 一 一 一 一 一 x 
u, u, wW ( 2 3g) 


(这 里 ,是 媒介 的 隔 热 率 ， 在 该 方法 中 是 一 个 常数 。) 结合 式 (2-3a) MI (2-3b) ~ (2- 
3g)， 我 们 能 够 减少 总 的 除法 数量 : 
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其 中 ， 
Z = ww (u -u,) - w (p - p,)- w. (p - p.) 
这 个 等 式 消 除了 中 间 值 g 和 w*i, 同时 没有 引入 额外 的 除法 。 最 终 我 们 能 够 结合 wi 与 
x (2-3c) 从 而 避免 除法 。 


2 
"m ( 2-5) 





2 

对 w/: 使 用 相似 的 表达 式 ; 使 用 我 们 重 写 的 式 (2-4) 和 式 (2-5)， 我 们 又 减少 了 
Newton-Raphson 迭代 中 除法 / 求 倒 数 的 数量 ， 从 原先 的 8 个 减少 到 两 个 。 参 考 图 2-19 中 优 
化 的 代码 。 

进一步 优化 性 能 。 使 用 结合 了 旋转 更 新 的 线程 级 / 内存 分 块 方法 ， 以 及 结合 了 数值 计 
算 方法 提升 的 Courant/ 更 新 方法 后 ， 对 于 程序 性 能 的 提升 会 在 图 2-20 中 展示 。 我 们 看 到 我 
们 的 使 用 了 特定 的 指令 和 计算 使 得 处 理 器 性 能 提升 了 1.2 ~ 1.7 倍 ， 协 处 理 器 提升 了 1.4 — 
1.6 倍 。 再 一 次 ， 使 用 提升 计算 环境 的 原则 和 完全 一 样 的 代码 在 两 种 架构 上 得 到 了 相似 的 加 
速 比 。 


2.4.7 ”数据 级 并 行 


数据 级 并 行 可 以 巨大 地 提升 性 能 ， 这 种 收益 与 借助 向 量化 减少 的 指令 数量 相关 
地 说 ， 我 们 将 回 量化 代码 ， 尽 可 能 让 这 份 代 码 尽 可 能 看 上 去 像 串 行 代码 。 

原始 的 代码 依赖 于 编译 器 指令 实现 向 量化 ， 但 是 它 糟糕 的 性 能 意味 着 程序 中 有 大 量 的 指 
令 开 销 ， 编 译 需 并 不 总 是 能 够 推测 出 程序 员 在 代码 中 所 表达 的 想法 。 

我 们 使 用 C++ SIMD 类 来 实现 流量 计算 和 积分 运算 中 的 向 量化 ， 这 是 一 种 性 能 和 开发 
工作 量 的 合理 妥协 。 使 用 这 种 方法 可 以 清晰 表达 出 如 何 向 量化 ， 而 且 不 需要 考虑 内 置 函 数 的 
细节 和 汇编 代码 所 带 来 的 阻碍 。 
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for(int i = 0; i < NITER_RIEMANN; ++i) 
| 


1 
2 
3 if (goon) 
4 
5 


const REAL T left ww2 = left rho * ((REAL T) 0.5) * ( (GAMMA + (REAL, T) 
1.0) * p. star + (GAMMA - (REAL, T) 1.0) * left p); 

const REAL.T left ww - my sqrt(left ww2); 

const REAL T right ww2 - right rho * ((REAL T) 0.5) * ((GAMMA * (REAL T) 
1.0) * p_star + (GAMMA - (REAL T) 1.0) * right p); 

const REAL T right ww = my sqrt(right ww2); 

const REAL T tmp num = ((REAL . T)2.0) * left ww2 * right ww2 * (left ww * 
right ww * (left u - right u) - left ww * (p star - right p) - 
right ww * (p star - left p)); 

const REAL T tmp den = right ww2*right ww * (left ww2 + left c) + 
left ww2*left ww * (right ww2 + right c); 

const REAL T tmp - tmp num * rcp(tmp den); 

const REAL T deleft p = std::max(tmp, -p star); 


p.star *- deleft p; 


const REAL T uo - std::abs(deleft p * rcp(p star * SMALLPP)); 
goon - uo » PRECISION; 





图 2-19 优化 代码 中 (分解 的 ) Newton-Raphson 循环 的 核心 


x10’ 
B 参考 代码 (2xIntel Xeon E5-2680) & 参考 代码 (Intel Xeon Phi 7120P) 
5. m HAL FRE (2xIntel Xeon E5-2680) = ju (fiU (Intel Xeon Phi 7120P) 
& 计算 (2xIntel Xeon E5-2680) * 计算 (Intel Xeon Phi 7120P) 
i 
B 
g 
39 3 
ue 
过 


iD 


-一 





| | : $ l | | 
F f | 
Inn 
Li _ 


512 1024 2048 4096 8192. 
线性 网 格 维度 中 的 迭代 


图 2-20 参考 代码 的 性 能 ,线程 / 访 存 优化 后 的 性 能 ,数值 计算 优化 后 的 性 能 


新 代码 使 用 宏 SIMD_WIDTH 作为 底层 硬件 的 SIMD 宽度 的 占 位 符 (对 于 处 理 器 是 2 或 
者 4， 对 于 协 处 理 器 是 8 )。 

SIMD 2 路 。 参 考 代 码 使 用 的 slab 方法 保证 了 所 有 的 计算 使 用 相同 的 数据 布局 (总 是 在 
slab 的 x 方 呵 )。 由 于 该 方法 中 x、y 遍历 的 不 同 ， 本 地 更 新 和 “旋转 更 新 ”求解 的 方法 在 这 
两 个 遍历 上 的 行为 是 不 同 的 。 图 2-21 描述 了 这 种 方法 中 不 同 的 SIMD 方案 。 

为 了 实现 上 述 想法 ，Intel 编译 器 在 <dvec.h> 头 文件 中 提供 了 C++ SIMD 类 。 每 个 内 
核 使 用 适当 的 SIMD 类 型 (我 们 使 用 VRERAL_T 宏 来 简化 ) 来 进行 并 行 化 ， 同 时 对 于 例 程 的 
核 本 身 来 说 这 些 在 形式 上 几乎 没有 改变 。 

vstrip prime() 和 vstrip stable() 函数 与 自身 的 串 行 代码 几乎 相同 。 而 strip 
prime() 和 strip_stable() 在 进行 x 和 y 遍 历时 行为 是 相同 的 (除了 步 (stride) 以 及 
pu 和 pv 变量 的 顺序 ), 但 x 的 更 新 要 求 沿 着 数据 布局 的 方向 进行 遍历 ， 这 要 求 我 们 引入 一 个 
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hstrip stable() 函数 以 稍微 不 同 的 方式 处 理 循环 缓冲 区 。 这 在 图 2-21c 展示 ; 另 一 种 
方案 是 像 原始 方案 一 样 像 y 轴 坐 标 一 样 重 排 x 轴 的 数据 ， 如 图 2-21b Prax. 






a) 
ne lie a 对 于 原始 x 轴 遍 历 的 访问 
c) XPF AAH A a] b) 


图 2-21 疝 量化 方案 : 将 网 格 中 的 数据 移动 到 SIMD 寄存 器 的 策略 (用 ro 和 ri 标明 )。 对 于 yy AA a) 
来 说 ， 向 量化 是 十 分 容易 的 ， 因 为 数据 在 内 存 中 和 寄存 器 上 有 着 相同 的 存储 方法 。 对 于 x 轴 
WJ b) 来 说 ， 向 量 需 要 额外 的 一 次 转 置 。 另 外 一 种 可 选 的 方案 c) 可 以 避免 转 置 而 且 消 耗 的 
资源 也 不 多 。 途 中 暗色 的 条 是 指 计算 器 正在 计算 这 些 网 格 中 的 流量 


图 2-22 展示 新 的 x 遍历 更 新 函数 ; 其 主要 新 特征 是 使 用 rotate left_wml ()、 
rotate left wm2() 因数 ， 这 个 对 函数 分 别 用 1、2 改变 第 一 个 参数 通道 里 的 内 容 并 使 
用 最 左边 通道 的 第 二 个 参数 替换 新 “ 空 ” 通 道 的 内 容 。 图 2-23 显示 了 tile x_step() PR 
数 如 何 应 用 于 SIMD。 我 们 省 略 了 新 tile_y_step() 的 描述 ， 可 以 预见 的 是 ， 这 将 类 似 
于 新 的 tile x step(), 除了 边界 的 初始 化 以 上 使 用 vstrip prime() 和 vstrip 
stable() 以 外 ， 它 们 将 完全 相同 。 


VREAL_T hstrip stable(const hydro  *restrict 
REAL T *restrict 
REAL T *restrict 
REAL T *restrict 
REAL T *restrict 
vstrip work  *restrict sw, 
const int ii 
const int stride, 
const VREAL T dtdx, 
const VMASK T write mask, 
const bool do courant) 


const int src offs = (i + 2)*stride; 


VREAL T E internal; 
vconservative to primitive(sw-»prim[O] + 2, sw-»prim[4] + 2, sw-»prim[1] 
*2, sw->prim[2] + 2, &E internal, 
loadu(rho * src offs), loadu(rhou + 
src offs), loadu(rhov + src offs), loadu(E + 
src offs)); 
sw-»prim[3][2] = vequation of state(sw-»prim[0][2], E internal); 


for(int v = 0; v < 5; ++V) 


rotate left wm2(sw-»prim[v] + 0, sw-»prim[v][21); 





图 2-22 hstrip stable():strip stable() 的 一 个 向 量变 体 ， 这 是 为 了 向 
量化 x 遍 历 更 新 而 不 聚集 / 扩散 
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23 rotate left wmi(sw-»prim[v] + 1, sw->prim[v][2]); 
24 } 
25 
26 VREAL_T dvar [4]; // slope for i+1 
27 if(h-»iorder != 1) 
28 for(int v = 0; v « 4; ++ v) 
29 dvar[v] = vslope(sw->prim[v][0], sw->prim[v][1], sw->prim[v][2], € 
VREAL T) h-»slope type, (VREAL T) h-»^»inv slope type); 
30 
31 VREAL T right flux[4]; 
32 const VREAL T prim c = vspeed of sound(sw-»prim[4][1], sw-»prim[3][1]); 
33 vtrace(sw->left_flux [0] + 1, sw-»left flux [1] + 1, 
sw-»left flux [2] + 1, sw->left_flux [3] + 1, 
34 right flux * O, right flux * 1, 
right flux 十 2, right flux * 3, 
35 sw-»prim[0] [1], sw-»^prim[4][1], sw-»prim[1] [1], sw->prim 
[2] [1], sw-»prim[3] [1], 
36 dvar [0], dvar [1], dvar [2], 
dvar [3], 
37 prim c, rcp(prim c), 
38 dtdx); 
39 
40 for(int v = 0; v < 4; ++V) 
41 rotate_left_wmi(sw->left_flux[v] + 0, sw->left_flux[v][1]); 
42 
43 VREAL_T gdnv_rho, gdnv_u, gdnv_v, gdnv_p; 
44 vriemann(&gdnv_rho, &gdnv_u, &gdnv_v, 
&gdnv_p, 
45 sw->left_flux [0] [0], sw->left_flux [11[0], sw->left_flux [2][0] sw 
-»left flux [3] [0], 
46 right flux[0], right flux[i1], right flux[2], 
right flux[3]1); 
47 
48 vempflx(sw->flux[0] + 1, sw->flux[1] + 1, sw-»flux[2] + 1, sw->flux[3] + 1, 
49 gdnv_rho, gdnv_u, gdnv_v, gdnv_p); 
50 
51 for(int v = 0; v < 4; ++v) 
52 rotate_left_wmi(sw->flux[v] + 0, sw->flux[v][1i]); 
53 
54 const VREAL_T new rho = vupdate(load(rho + i*stride), sw->flux [0] [0], 
sw-»flux[0][1], VREAL T(dtdx)); 
55 const VREAL T new rhou = vupdate(load(rhou + i*stride), sw-»flux[11][0], 
sw-»flux[1][1], VREAL T(dtdx)); 
56 const VREAL T new rhov = vupdate(load(rhov + i*stride), sw->flux [2] [0], 
sw-»flux[2][1], VREAL T(dtdx)); 
57 const VREAL T new E = vupdate(load(E + i*stride), sw->flux[3][0], 
sw-»flux[3][1], VREAL T(dtdx)); 
58 
59 VREAL T courantv = (VREAL T) 0.0; 
60 if(do. courant) 
61 1 
62 VREAL T prim rho, prim inv rho, prim u, prim v, E internal; 
63 vconservative to primitive(£prim rho, &prim inv rho, &prim_u,  £&prim v, 
& E internal, 
64 new rho, new rhou, new rhov, 
new E); 
65 const VREAL T prim p = vequation of state(prim rho, E internal); 
66 const VREAL T prim c - vspeed of sound (prim inv rho, prim p); 
67 vcourant(&£courantv, prim u, prim v, prim c, write mask); 
68 } 
69 
70 maskstore(rho + i*stride, new_rho, write_mask); 
71 maskstore(rhou + i*stride, new_rhou, write_mask); 
72 maskstore(rhov + i*stride, new_rhov, write_mask); 
73 maskstore(E + i*stride, new_E, write_mask); 
74 
75 for(int v = 0; v < 4; ++ v) 
76 1 
77 sw->flux [v1[0] = sw->flux v3 [1] = 
78 sw-»left flux[v][0] = sw->left_flux[v] [1]; 


图 2-22 (4X) 
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} 


for(int v = 0; v < 5; ++ v) 


sw->prim[v] [0] = sw->prim[v] [2]; 


sw-»prim[v][1] = sw->prim[v] [2]; 
} 


SRREFESRSBQ 


return courantv; 





图 2-22 (£X) 


剥落 和 掩 码 。 当 考虑 在 任意 网 格 维度 上 SIMD Bf, REBATE PAY “R 
余 ” 部 分 (BN, 循环 末尾 的 工作 并 没有 填充 完 SIMD 单元 的 数据 )。 不 适当 处 理会 导致 硬件 
和 软件 在 运行 时 出 错 。 通 常 的 方法 是 循环 剥离 一 一 主 循环 随 着 SIMD 的 步伐 而 推进 ， 一 个 单 
独 、 串 行 的 循环 处 理 剩 下 的 东西 。 这 种 方法 会 带 来 一 些 额 外 的 开销 ， 特 别 是 主 循环 循环 长 度 
减少 、SIMD 宽度 增长 的 时 候 ， 但 对 于 大 网 格 ， 这 样 操作 SIMD 所 带 来 的 收益 会 变 少 。 

男 一 种 方法 需要 使 用 支持 写 掩 码 的 指令 集 ， 比 如 Intel Xeon Phi 协 处 理 器 。 这 里 ， 一 个 
位 掩 码 决定 了 回 量 处 理 需 的 哪个 通道 被 写 进 内 存 ， 哪 些 被 跳 过 。 使 用 这 种 结构 ， 就 有 可 能 避 
免 循环 剥离 。 这 种 机 制 在 处 理 SIMD 处 理 器 不 同 寄存 需要 表现 不 同行 为 的 时 候 使 用 。 


1 REAL, T tile x step(tile *restrict tl, const REAL T dtdx, const hydro *restrict h, 
int jstart, int jend, bool do, courant) 


static const REAL T x signs[4] 


VMASK T alltrue; 

mask true(£&alltrue); 
VINT T linear; 

linear offset(&linear); 


VREAL T courantv = (VREAL T) 0.0; 
REAL T final courantv = 0.0; 
for(int j = jstart; j « jend; ++j) 
1 
const int ob = (j + 2) * tl->ystride + 0; 
if (tl->neighbors [0]) 
{ 
for(int v = 0; v < 4; **v) 
1 
tl-»q[v*tl-»varstride + ob + 0] = tl->x_edges [0] [v*tl-> 
x e varstride + j * tl->x_e_ystride + 0]; 
tl-»q[v*tl-»varstride + ob + 1] = tl->x_edges[0] [v*tl-> 
x e varstride + j * tl-»x e ystride + 1]; 
} 
} 
else 
set_boundaries(tl->q + ob, x signs, 2, 1, 4, tl-> varstride); 


if (tl->neighbors [1]) 
{ 


for(int v = 0; v < 4; ++v) 


tl->q[v*tl->varstride + ob + tl-»n[0] + 2 + 0] = t1-»x edges[1][v* 
tl->x_e_varstride + j * tl->x_e_ystride + 0]; 

tl-»q[v*tl-»varstride + ob + tl-»n[0] + 2 + 1] = tl->x_edges [i] [v* 
tl->x_e_varstride + j * tl->x_e_ystride + 1]; 





图 2-23 向 量 版 的 tile x step; 与 图 2-14 不同 的 是 ，SIMD_WIDTH 更 新 步 长 ， 使 用 了 掩 码 产生 
hstrip stable, 并且 循环 剥离 在 SIMD 交界 处 减 小 了 Courant fH 
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set_boundaries(tl->q + ob + tl-»n|0] + 3, x signs, 
varstride); 


const int -0b * 2; 

strip work sw; 

strip prime(£sw, tl->rho + o, tl->rhou + o, tl->rhov + o, tl->E + o, h, 
1, dtdx); 


vstrip work vsw; 

for(int v = 0; v < 4; ++ v) 

{ 
vsw.flux [v] [0] [SIMD. WIDTH -1] .flux [v] [0] ; 
vsw.left flux [v][0] [SIMD WIDTH -1] .left flux [v1[0]; 

} 

for(int v = 0; v < 5; ++ v) 

{ 
vsw.prim [v] [0] [SIMD_WIDTH -2] .prim [v] [0] ; 
vsw.prim [v] [0] [SIMD. WIDTH -1] .prim Ev] [17 3 
vsw.prim [v] [1] [SIMD. WIDTH -1] .prim [v] [1] j 

} 


int i 0 


for(; i + SIMD WIDTH <= tl-»n[0]; i*-SIMD, WIDTH) 


1 
const VREAL T cv = hstrip stable(h, tl->rho + o, tl->rhou + o, tl-> 
rhov + o, tl->E + o, &vsw, i, 1, (VREAL T) dtdx, alltrue, 
do courant); 
courantv = std::max(courantv, cv); 


} 


for(; i < tl-»n[0]; i*-SIMD WIDTH) 
t 
const VMASK T in bounds = mask lt(linear + (VINT T) (double)i, (VINT T 
) (double)tl1-»n[0]); 
const VREAL T cv = hstrip stable(h, tl->rho + o, tl->rhou + o, 
tl->rhov + o, tl->E + o, &vsw, i, 1, (VREAL T) dtdx, in bounds, 
do courant); 
courantv = std::max(courantv, cv); 


for(int i = 0; i « SIMD WIDTH; ++i) 
final courantv = std::max(final courantv, courantv[i]); 
return final courantv; 





图 2-23 (£4) 


协 处 理 器 对 每 个 通道 掩 码 有 最 基本 的 支持 。 几 乎 每 个 向 量 指令 都 会 接收 一 个 掩 码 参数 ， 
同时 ， 存 储 和 操作 这 些 掩 码 都 会 有 专门 的 掩 码 寄存 妖 。 处 理 需 为 了 达到 这 种 效果 必须 混合 指 
令 ， 这 意味 着 需要 结合 和 交叉 两 个 寄存 器 的 内 容 。 这 就 刺激 了 指令 数量 的 增长 。 

控制 分 支 。 对 于 有 效 问 量化 来 说 ， 更 加 深远 的 挑战 是 控制 分 支 一 一 SIMD 分 支 代码 的 处 
理 。 这 个 问题 会 在 有 数据 依赖 程序 执行 时 产生 ， 同 时 在 SIMD HRA 3$ 2: DU BUR BJAT A, 
使 用 混合 / 掩 码 操作 以 保证 结果 的 正确 性 。 在 运行 较 多 代码 时 ，SIMD 的 指令 的 收益 会 随 之 
减少 。 

Godunov 方法 利用 Riemann 求解 紫 抛 出 异常 的 方法 避免 控制 分 支 ; Newton-Raphson 3X 
代 不 必 一 致 收 剑 。 一 些 输 入 可 能 要 求 更 多 的 迭代 ， 而 这 个 会 造成 SIMD 的 控制 分 文 问题 。 参 
见 图 2-24 中 向 量化 后 的 循环 。 

基于 我 们 的 观察 ，Riemann 求解 器 中 的 Newton-Raphson 迭代 几乎 没有 出 现 控制 分 支 的 
问题 ; 参考 代码 对 于 求解 带 在 迭代 上 有 用 户 定 义 的 限制 ,但 是 99% 的 Riemann 计算 收敛 前 


只 需要 一 次 迭代 。 

对 齐 。 数 据 对 齐 的 代价 会 随 着 架构 而 不 同 ， 并且 它们 的 影响 严重 依赖 于 SIMD 操作 的 加 
载 部 分 。 在 这 份 代码 增加 的 部 分 中 ， 对 齐 “ 块 ”分 配 非常 简单 ;对 于 一 些 网 格 尺 寸 ， 填 充 行 
(可 以 使 得 网 格 的 0 列 保持 对 齐 ) 是 非常 有 必要 的 。 图 2-25 展示 了 优化 实现 中 的 初始 化 代码 。 

最 后 一 步 。 通 过 减少 中 间 储 存 “ 块 ”和 算术 优化 的 方法 显示 的 算术 强度 的 提升 已 经 完全 
被 我 们 的 向 量化 策略 实现 。 图 2-26 显示 了 每 次 增 量 优化 后 的 性 能 ， 加 上 参考 代码 ， 每 一 部 
分 都 使 得 处 理 器 加 速 了 1.4 ~ 1.5 倍 ， 协 处 理 器 加 速 了 2.2 一 4.4 倍 ! 在 这 一 点 ， 多 亏 了 宽 问 
量 单元 ， 使 得 协 处 理 器 得 以 改进 ， 但 是 对 于 小 尺寸 问题 ， 协 处 理 器 的 表现 并 不 优秀 。 协 处 理 
器 有 较 高 吞吐 量 时 效率 才 会 突出 。 


for(int i = 0; i < NITER RIEMANN && !all zero(goon); ++i) 
1 


const VREAL T left ww2 = left rho * ((VREAL T) 0.5) * (VREAL_T(GAMMA + ( 
REAL T) 1.0) * p star + VREAL T(GAMMA - (REAL, T) 1.0) * left p); 
const VREAL T left ww = my sqrt(left ww2); 
const VREAL T right ww2 = right rho * ((VREAL T) 0.5) * (VREAL T(GAMMA * ( 
REAL T) 1.0) * p.star + VREAL_T(GAMMA - (REAL_T) 1.0) * right p); 
const VREAL T right ww = my sqrt(right ww2); 
const VREAL T tmp num - ((VREAL T)2.0) * left ww2 * right ww2 * (left ww 
* right ww * (left u - right u) - left ww * (p star - right p) - 
- right ww * (p star - left p)); 
const VREAL T tmp den = right ww2*right ww * (left ww2 + left c) + 
left ww2*left ww * (right ww2 + right c); l 
const VREAL_T tmp = tmp num * rcp(tmp den); 
const VREAL T deleft p = std::max(tmp, -p star); 


p.star += select true(goon, deleft p, (VREAL T) 0.0); 


const VREAL T uo = std::abs(deleft p * rcp(p star + SMALLPP)); 
goon = mask and(goon, mask gt(uo, VREAL T(PRECISION))); 





图 2-24 vriemann() 中 向 量化 的 Newton-Raphson 循环 ; 注意 all zero() 调用 ,这 造成 了 所 
有 SIMD 通道 在 产生 分 皮 前 执行 


2.5 总结 


我 们 为 了 求解 2D 欧 拉 方 程 而 实现 的 改进 的 Godunov 方法 极 大 地 提升 了 参考 代码 的 性 
能 ， 无 论 对 于 协 处 理 硕 还 是 处 理 器 ， 无 论 问题 的 规模 大 小 ， 它 们 的 性 能 都 得 到 了 提升 。 


2.5.1 协 处 理 乙 与 处 理 希 


在 参考 代码 中 ， 协 处 理 器 只 有 原先 代码 一 半 的 效率 从 原始 FLOP 能 力 看 (参考 
图 2-3) 一 一 这 完全 出 乎 意料 。 优 化 的 代码 扭转 了 这 个 情况 ， 协 处 理 器 的 性 能 是 处 理 融 的 
1.3 一 1.5 倍 。 在 Intel Xeon Phi 协 处 理 右 上 的 并 行 化 反映 出 它 需 要 较 大 的 问题 规模 才能 达到 
性 能 峰值 ， 但 给 足 工作 量 ， 它 能 轻松 超过 处 理 器 的 性 能 。 


2.5.2 水涨船高 


我 们 做 的 每 个 优化 都 让 程序 得 到 很 大 收益 ， 无 论 从 处 理 器 还 是 从 协 处 理 器 的 角度 看 都 是 
这 样 ， 对 于 问题 的 规模 ， 性 能 也 是 提升 的 一 一 在 协 处 理 融 上 有 12 倍 的 性 能 提升 ， 处 理 器 上 
有 5 倍 的 性 能 提升 。 虽 然 两 个 不 同 计算 机 染 构 在 很 多 方面 都 不 同 , 但 是 它们 提升 性 能 的 方式 
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根本 上 是 相同 的 ， 而 且 这 些 优化 同样 也 会 在 其 他 机 右上 起 作用 。 


nline unsigned long long round to alignment(unsigned long long x, int alignment) 


i 
1 


if(x & (alignment -1)) 
x = (x & -(alignment-1)) + alignment; 
return x; 


oid init tile(tile *tl, int xstart, int xend, int ystart, int yend) 


static const int target alignment 64; 
static const int arith alignment target alignment/sizeof (REAL T); 


tl-»offset[0] = xstart; 
tl->offset[i] = ystart; 


tl-»n[0] = xend - xstart; 
tl-»n[1] = yend - ystart; 


const int min stride = tl-»n[0] + 2*2; 
tl-»ystride - round to alignment(min stride, arith alignment); 
tl->varstride = tl->ystride * (tl->n[i] + 2*2); 


const int alloc_offset = arith_alignment - 2; 

tl-»q = ((REAL T *) mm malloc( sizeof(REAL T) * (4 * tl->varstride + 
arith alignment), target alignment)) * alloc offset; 

tl->rho = tl->q + O*tl-^varstride; 

tl->rhou = tl->q + 1*tl->varstride; 

tl->rhov = tl->q + 2*tl->varstride; 

t1->E = tl->q + 3*tl->varstride; 


const int min_x_e_varstride = tl->n[i] * 2; 

tl->x_e_ystride = 2; 

tl->x_e_varstride = round to alignment(min x e varstride, arith alignment); 

tl->x_edges[0] = (REAL T *) mm malloc( sizeof(REAL T) * 4 * tl-»x e varstride 
, target alignment); 

tl->x_edges[i] = (REAL T *) mm, malloc( sizeof(REAL T) * 4 * tl-»x e varstride 
, target alignment); 


const int min y e varstride = tl->n[0] * 2; 

tl-»y e ystride = tl->n[0]; 

tl-»y e varstride - round to alignment(min,y e varstride, arith alignment); 

tl->y_edges[0] = (REAL. T *) mm malloc( sizeof(REAL T) * 4 * tl-»y e varstride 
, target alignment); 

tl->y_edges[i] = (REAL. T *) mm malloc( sizeof (REAL T) * 4 * tl-»y e varstride 
, target alignment); 





[2-25 初始 化 函数 inti tile() 和 辅助 函数 round to alignment(). mm malloc() 是 一 个 
编译 器 内 置 消 数 ， 用 于 对 齐 分 配 。 由 于 halo 区 的 关系 ， 理 想 的 SIMD 访问 内 存 不 能 够 在 分 配 
开始 的 地 方 进行 网 格 的 内 存 分 配 ， 这 份 代码 每 行 的 起 始 非 halo 区 将 排 成 行 ， 这 要 求 alloc_ 
offset 提前 分 配 指 针 


2.5.3 性 能 策略 


科学 家 还 有 所 有 关注 代码 性 能 的 编码 者 ， 痢 非常 关注 如 何 最 小 化 优化 程序 所 需要 的 改变 
和 维护 代价 。 在 这 个 主题 上 ,没有 简单 的 答案 一 一 没有 “ 银 弹 ”。 

当 本 章 深 入 分 析 的 时 候 ， 并 不 是 由 在 声称 每 个 程序 员 是 微 体系 结构 的 专家 ,或 者 他 们 熟 
悉 目标 处 理 融 的 微小 结构 。 相 反 ， 我 们 硕 望 通过 有 意识 地 忽略 和 人 简化 硬件 ， 显 著 改 善 效率 ， 
这 样 减少 了 有 些 处 理 器 独 有 硬件 特征 对 优化 代码 所 带 来 的 影 啊 。 
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图 2-26 参考 代码 的 性 能 ,线程 / 访 存 优化 后 的 性 能 ， 数 值 计 算 优化 后 的 性 能 ， 向 量化 后 的 性 能 


e 按照 我 们 所 描述 算术 优化 ， 考 虑 如 何在 给 定 架 构 上 执行 等 价 的 不 同 数学 变换 。 这 些 
变换 经 常 有 小 范围 的 代码 影响 。 | 
e 估计 为 了 充分 利用 向 量 硬件 ， 我 们 如 何 将 “ 热 ” 循 环 的 数据 访问 结构 化 ， 就 像 我 们 
对 vstrip_stable fllhstrip stabl 所 做 的 那样 。 这 些 修 饰 经 党 可 以 把 修改 限 
制 到 很 小 的 范围 内 。 
e 考虑 工作 可 以 在 核 (明确 地 说 是 线程 ) 间 传 递 的 可 能 方式 ; 这 关系 到 如 何在 代码 中 分 
化 任务 和 分 配 它 们 的 粒度 。 这 可 能 在 数据 访问 和 存储 上 产生 不 同 的 方式 ， 比 如 我 们 
是 如 何 使 用 “ 块 ” 和 “排序 ”的 。 
e 最终， 考虑 内 存 和 内 存 架 构 的 使 用 和 布局 。 这 将 会 引发 一 系列 代码 修改 ， 也 会 带 来 
与 之 相称 的 收获 。 我 们 考虑 到 旋转 更 新 和 块 方法 。 
我 们 提供 的 最 好 的 通用 建议 是 恰当 地 应 用 一 个 模型 ， 以 查看 代码 对 人 硬件 上 的 运行 情况 和 
对 其 资源 的 利用 情况 ,恰当 应 用 的 编译 工具 可 以 大 大 简化 它 的 实现 。 写 一 份 最 简单 的 、 无 法 
识别 硬件 的 代码 ， 并 使 用 事后 自动 优化 并 不 会 实现 高 效率 。 
我 们 和 希望 我 们 能 够 向 读者 展示 这 些 粗糙 的 原则 如 何 应 用 到 流行 数值 计算 技术 上 ， 尽 管 当 
它们 应 用 到 其 他 代码 时 将 会 和 我 们 在 此 展示 的 有 极 大 不 同 ， 但 我 们 相信 ， 在 代码 编写 的 过 程 
中 考虑 它们 将 会 对 极 大 地 使 得 计算 受益 ， 同 时 有 望 减轻 科学 家 - 程序 员 的 负担 。 
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3.1 应 用 程序 : HIROMB-BOOS-MODEL 


完整 的 HIROME-BOOS-MODEL ( HBM) 软件 具有 双向 动态 肉 套 的 特点 ， 任 意 数量 的 
艇 套 层 数 能 够 呈现 高 分 辩 率 的 海洋 区 域 并 在 狭 窗 的 海峡 和 航道 使 用 更 高 的 分 辨 率 。 除 了 基本 
物理 组 件 外 ，HBM 还 拥有 可 供 选 择 的 生物 地 球 化 学 模块 。 在 支持 分 布 式 与 共享 内 存 并 行 化 
的 基础 上 ，HBM 已 经 发 展 为 一 种 成 熟 、 高 效 、 便 捷 、 高 质量 的 海洋 模型 软件 。 通 过 修改 输 
和 设置 标准 ，HBM 在 业务 预报 及 气候 等 方面 的 研究 工作 中 得 到 广泛 应 用 。 这 种 通用 模型 软 
件 能 够 使 用 相同 代码 处 理 诸如 地 理 履 盖 范 围 、 网 格 分 辨 率 、 艇 套 区 域 数 量 、 模 拟 时 间 路 度 和 
一 些 其 他 模型 特征 的 不 同 应 用 。 因 为 这 些 应 用 具有 不 能 被 硬 编码 的 动态 特征 。 

运行 时 系统 中 用 户 指定 的 输入 参数 、 选 择 使 用 的 具体 时 间 步 长 和 仿真 周期 数 ， 是 用 于 区 
别 使 用 相同 源 代码 执行 的 业务 预报 应 用 和 气候 情景 应 用 的 全 部 内 容 。 因 为 动态 的 输入 参数 、 
MPI 任务 数 和 OpenMP 线程 数 都 是 由 运行 时 系统 的 性 能 决定 的 。 无 论 如 何 选择 任务 数 和 线 
程 数 ， 都 必须 保证 得 到 相同 的 二 进 制 运行 结果 。 与 可 用 的 其 他 大 多 数 模型 软件 相 比 ，HBM 
能 够 在 用 户 选 择 的 串 行 .MPI 并 行 、OpenMP 并 行 或 MPI-OpenMP 混合 并 行 架构 上 进行 移植 、 
编译 、 执 行 。HBM 软件 已 经 应 用 到 从 和 气候 预测 到 气候 建 模 等 多 个 重点 领域 的 研究 和 商业 项 
目 中 。 人 例如， 和 丹麦 气象 研究 所 (DMI) 目前 正在 研发 泛 欧洲 模型 ， 该 模型 未 来 活动 的 中 心包 
括 以 下 两 个 主要 方面 : (i) 在 泛 欧洲 范围 内 提供 相同 的 预报 内 容 ;〈ii) 应 对 泛 欧洲 和 局 部 区 
域 的 气候 变化 。 对 于 后 者 ，HBM 需要 为 大 气 -海洋 耦合 模型 提供 可 靠 的 基础 服务 。 解 决 时 
间 问 题 是 整个 项 目 成 功 实 现 的 一 个 重要 因素 。 该 泛 欧洲 模型 在 狭 罕 的 海峡 和 临时 水 域 设置 了 
9 个 高 分 辨 率 的 垦 套 区 域 (水 平方 向 下 降 至 185m IF, EADH FEZ 1m)。 此 外 ， 该 模 
型 拥有 了 高 达 1860 万 个 活跃 湿 点 ， 因 此 目前 的 计算 需求 已 经 远 远 超过 在 DMI 之 前 的 其 他 任 
何 单个 模型 。 尽 管 如 此 ， 从 近期 的 PRACE WIA CURL 参见 3.13 节 ) 中 我 们 可 以 看 出 ， 现 有 
系统 使 用 HBM 早期 版 本 进行 5 天 预报 的 时 间 消 耗 为 1.5 — 2.5 小时。 这 一 结论 使 得 实现 业 
务 预测 成 为 可 能 。 然 而 ， 如 果 要 把 设置 气候 时 间 规 模 的 建 模 方案 在 DMI 中 实际 应 用 ， 还 需 
要 进一步 提升 模型 的 并 行 加 速 比 。 

为 了 使 读者 更 深入 地 了 解 有 关 HBM 的 信息 ， 可 参考 3.13 节 。 


3.2 关键 应 用 : DMI 


该 DMI 提供 了 许多 气象 服务 ， 主 要 包括 天 气 与 气候 的 预报 、 预 警 和 监测 ， 以 及 大 气 、 
陆地 、 海 洋 的 相关 环境 影响 ， 以 达到 保护 丹麦 、 法 罗 和 群岛 、 格 陵 兰 岛 的 联邦 地 区 及 周边 海 
域 、 空 域 人 民 的 生命 与 财产 安全 的 目的 。DMI 的 其 中 一 个 重要 的 职责 是 为 诸如 暴风 十 袭击 


HBM 上 的 SIMD 5 JF € fE£4U 37 


丹麦 海岸 等 国家 突 发 事件 进行 应 急 准 备 和 积极 响应 。 在 DMI 中 ， 当 前 版 本 的 海洋 环流 模型 
代码 已 经 承担 了 从 2001 年 开始 的 业务 化 风 骏 潮 模 型 并 在 一 些 欧盟 资助 的 项 目 中 广泛 应 用 ; 
最 新 版 本 的 HBM 项 目 如 今 用 于 提供 最 近 5 天 每 天 4 次 的 水 位 预报 。 在 丹麦 的 滨海 站 该 模型 
能 够 提供 最 准确 的 水 位 预测 。 这 是 通过 对 比 现场 观测 数据 和 来 自 北海 及 波罗的海 等 预报 中 心 
的 预报 数据 进行 不 断 地 验证 得 到 的 结果 。 同 一 个 模型 中 的 三 维 场景 预测 的 电流 和 水 温 通常 作 
为 丹麦 水 域 操作 油 泄 露 建 模 的 基本 数据 。 在 男 一 种 模式 设置 中 ，DMI 通过 使 用 源 代码 完全 
相同 的 版 本 对 MyOcean 项 目的 波罗的海 生产 组 件 进行 操作 ， 该 项 目的 关注 点 是 波罗的海 中 
包括 物理 学 和 生物 地 球 化 学 参数 在 内 的 海洋 状态 。 该 模型 设置 在 不 断 增加 相关 区 域 呈 现 的 分 
辨 率 上 得 到 应 用 并 提供 了 2.5 天 内 每 天 两 次 的 预报 。MyOcean 项 目的 质量 被 连续 地 监测 和 验 
证 。 感 兴趣 的 读者 可 以 在 本 章 未 尾 提 到 的 MyOcean 网 页 上 进行 查阅 。 

作为 一 个 气象 、 能 源 和 建设 部 下 属 的 政府 机 构 ，DMI 正在 面临 着 能 源 预 算 和 限制 能 耗 
计算 方法 的 挑战 。 人 们 非常 布 望 找到 一 个 对 于 像 HBM 代码 这 样 的 能 够 有 效 减 少 运行 时 间 和 
能 源 消耗 的 方法 。 我 们 也 正在 不 断 地 提高 HBM 的 性 能 ， 其 中 本 章 介绍 的 工作 成 果 已 经 运用 
到 HBM 源 代码 库 中 ， 并 作为 其 中 一 个 重要 的 组 成 部 分 提升 了 HBM 整体 的 运行 性 能 。 


3.3 HBM 执行 配置 文件 


作为 一 个 回 着 HBM 更 高 效 执行 力度 发 展 的 准则 ， 实 际 应 用 中 的 HBM 代码 执行 时 间 
中 不 同 部 分 的 执行 时 间 所 占 比重 如 图 3-1 所 示 。 其 中 平流 示 踊 部 分 的 时 间 占 到 了 总 时 间 的 
44%， 因 此 它 是 项 目 中 最 主要 的 部 分 。 实 验 的 结果 表明 可 以 通过 盐 度 和 温度 两 种 示 踪 方法 得 
到 纯 物 理 运行 过 程 。 对 于 运行 像 MyOcean 这 样 的 应 用 需要 额外 的 12 个 示 踊 剂 表 示 生 物 地 
球 化 学 的 变量 , 平流 示 踪 的 运行 时 间 约 长 2.5 倍 。 在 任何 一 种 情况 下 ， 通 过 优化 平流 示 踪 部 
分 性 能 来 进一步 优化 HBM 整体 性 能 的 方案 似乎 非常 合理 ,平流 示 踪 部 分 优化 有 以 下 两 种 方 
法 : 一 个 是 提出 一 个 可 实现 的 新 的 、 更 简单 、 更 高 效 的 方案 ; 男 一 个 是 尝试 提高 现 有 较为 复 
杂 方 案 的 性 能 。 由 于 以 下 几 个 原因 ， 第 一 种 优化 方案 难以 实现 ， 因 此 提高 当前 方案 的 性 能 是 
优化 像 HBM 这 样 的 通用 模型 代码 的 唯一 出 路 。 


时 间 所 占 比重 





图 3-1 HBM 典型 应 用 程序 在 不 同 部 分 代码 中 的 运行 时 间 所 占 比例 。 定 时 程序 用 于 在 单 节 
A (REH MPI) 上 运行 和 单 区域 模 型 设置 上 ， 对 于 在 较 多 MPI ES ARS RE K 
域 上 的 模型 运行 情况 ， 各 部 分 程序 执行 时 间 百 分 比 会 发 生变 化 但 是 时 间 开 销 较 大 的 
前 5 个 部 分 间 的 相互 关系 将 保持 不 变 


对 于 示 踪 物 平流 而 言 ， 使 用 中 心 差分 法 或 纯 迎 风格 式 的 相对 粗 粒 度 网 格 划分 ， 可 能 导致 
偏差 其 至 错误 的 预测 结果 。 总 偏差 递减 (TVD) 方案 (Harten, 1997) 能 够 预测 更 陡 的 峰值 
并 保持 不 含 寄 生 振 荡 的 单调 性 (没有 “ 超 调 ”)。 但 是 这 些 TVD 的 性 质 往往 难以 甚至 不 能 证 
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明 通 用 多 维 方案 的 存在 ， 因 此 应 用 中 的 每 个 坐标 方向 通常 使 用 一 维 坐标 系 保 持 某 种 单调 性 。 
毫 无 疑问 ， 任 何 物理 引力 模型 必须 具备 质量 守恒 和 单调 性 。 即 使 是 应 用 在 可 能 发 生 空 间 和 时 
间 上 诸如 干燥 和 湿润 又 变 的 自由 表面 流动 上 时 ， 如 果 能 够 满足 以 下 两 个 基本 条 件 (Gross 等 ， 
2002 )， 的 确 能 够 使 用 一 些 示 踊 物 平流 方法 解决 。 第 一 个 条 件 是 满足 一 致 性 和 连续 性 (CWC) 
概念 ， 即 要 求 离 散 的 示 踪 物 平流 方程 与 离散 的 自由 表面 连续 方程 保持 一 致 ， 男 一 个 重要 条 件 
是 在 网 格 单元 格 表面 适当 定义 变化 的 高 通 量 。 

Kleine ( 1993 ) 研究 并 提出 了 HBM 上 示 踊 物 平 流 的 实际 数值 方法 。 本 文 作者 实现 了 一 
种 高 并 发 的 数值 方法 ， 该 方法 对 CWC 概念 和 带 有 多 个 示 踊 物 的 动态 双向 藤 套 配置 的 高 通 量 
进行 了 适当 修改 和 调整 。 此 外 ， 作 者 还 调整 了 所 有 使 用 间接 寻 址 方式 的 数据 结构 ， 添 加 了 对 
MPI 和 OpenMP 的 支持 ， 以 及 使 用 单 指令 多 数据 (SIMD) 回 量 以 优化 并 发 性 。 在 BSD 授权 
下 ， 读 者 可 下 载 、 使 用 本 章 的 特定 代码 以 及 与 HBM ( 非 完 整 代 码 ) 相关 的 部 分 代码 。 


3.4 HBM 优化 综述 


为 了 阅 述 我 们 的 观点 同时 简单 化 不 必要 的 事情 ， 我 们 将 不 会 处 理 有 关 岗 套 、 气 象 预报 
领域 及 本 章 提 到 的 其 他 预报 数据 等 。 这 些 可 能 会 限制 其 在 代码 中 的 使 用 ,但 是 我 们 希望 能 在 
真实 环境 的 3 维 数据 集中 展示 我 们 的 研究 成 果 ， 而 不 是 局 限于 学 术 研 究 中 。 因 此 ， 我 们 将 
程序 应 用 在 巴 芬 湾 的 所 有 相关 数据 上 ， 这 些 数 据 是 从 免费 的 ETOPO2 数据 集中 免费 获取 的 。 
(URL 详 见 3.13 节 。) 

下 一 节 首 先 将 介绍 最 重要 的 且 不 同 于 其 他 环流 模型 代码 的 数据 结构 ， 然 后 将 描述 HBM 
的 线程 并 行 化 与 SIMD 向 量化 过 程 。 此 外 ， 我 们 详细 处 理 了 一 些 零 碎 的 优化 障碍 和 不 明显 的 
优化 效果 。 最 后 我 们 结合 了 多 种 优化 方法 并 在 Intel Xeon Lb FEAF A Intel Xeon Phi Bb Egy 
上 进行 性 能 分 析 对 比 。 这 种 特殊 应 用 的 实验 结果 表明 ， 与 Intel Xeon 处 理 絮 相 比 ， 我 们 在 一 
个 Intel Xeon Phi 协 处 理 右 上 获得 了 15% 的 性 能 提升 。 


3.5 数据 结构 : 准确 定位 位 置 


作者 认为 只 有 在 以 数据 近邻 为 重点 的 应 用 上 才能 获得 基于 最 新 硬件 的 良好 SIMD 与 线程 
优化 性 能 。 位 置 ， 位置， 位 置 …… 是 的 ,一 切 都 与 位 置 相 关 ， 本 节 将 描述 整个 HBM 模型 中 
的 面向 数据 设计 方法 。 

如 图 3-2 所 示 ， 我 们 将 3D 网 格 上 的 点 分 为 活跃 计算 点 〈 即 湿 点 ， 陆 地 上 或 海平 面 以 
下 的 网 格 点 ) 和 非 活 跃 计算 点 (在 陆地 或 海平 面 以 下 的 网 格 点 )。 图 3-3 展示 了 一 个 典型 的 
浅水 域 。 我 们 发 现 规 则 3D 网 格 内 的 活跃 计算 点 数量 远 少 于 总 计算 点 数量 。 例 如 ， 图 3-3 
所 示 的 区 域 中 只 有 11.1% 的 点 是 活跃 计算 点 。 因 此 计算 模型 使 用 的 所 有 和 矩阵 非常 稀疏 ， 这 
就 表明 在 HBM 中 应 当 使 用 存储 量 更 小 、 数 据 更 加 密集 的 稀疏 结构 。 我 们 使 用 三 个 数组 
msrf(0:,0:), mcol(0:) 和 kh(0:) 分 别 表 示 水 平面 湿 点 的 索引 、 列 中 第 一 个 地 下 
点 的 索引 和 列 的 最 终 长 度 进行 压缩 存储 。 水 平面 索引 数组 将 水 平面 网 格 点 (i,j) 转换 为 
对 应 的 湿 点 索引 。 如 果 (1,3) 点 在 陆地 或 海平 面 以 下 则 返回 0 值 。 地 表 索 引号 为 iw 的 
列 索 引 由 mcol (iw) 函数 定义 ， 且 mcol(0) 返回 0 值 。 同 样 ， 地 表 索 引 iw 的 列 长 度 由 
kh (iw) 函数 定义 ， 且 kh(0) 返回 0 值 。 图 3-4 中 的 代码 展示 了 3 维和 矩阵 u(:) 上 所 有 湿 
点 的 循环 过 程 。 我 们 可 以 发 现 msrf (0:,0:) 从 湿 点 到 网 格 位 置 (i,j) 的 反 向 转换 过 程 是 
由 ind(1:2,:) 确定 的 。 
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图 3-2 ”活跃 计算 点 在 规则 3 维 网 格 中 的 分 布 情况 。 其 中 使 用 浅 色 代表 顶部 的 活跃 计算 点 分 布 ， 中 间 
颜色 表示 地 表 下 的 活跃 计算 点 分 布 情况 ， 非 活跃 点 用 深 色 表示 


8000 


4000 





0 4000 8000 
图 3-3 典型 不 规则 计算 区 域 分 布 图 。 图 中 展示 了 丹麦 国内 的 子 水 域 分 布 情况 ， 颜 色 编 码 表示 每 个 地 
表 操 下 的 湿 点 数量 。 其 中 日 色 表 示 陆 地 ， 颜 色 范 围 从 深蓝 色 表 示 一 个 点 到 上 暗 红色 表示 75 个 
所 。 布 侧 的 直方 图 表示 沿 着 每 个 维度 网 格 线 分 布 的 湿 点 数量 。 顶 部 的 直方 图 表示 沿 着 经 度 网 
格 线 分 布 的 湿 点 数量 


图 3-5 展示 了 我 们 在 1 维 数据 结构 中 划分 的 三 种 类 型 点 。 该 部 分 代码 在 水 平 柱状 网 格 上 
运行 。 我 们 在 水 平方 向 上 使 用 间接 寻 址 方式 的 目的 是 映射 由 msrf (i,j) 得 到 的 列 的 置换 。 
注意 ， 这 里 的 置换 是 由 一 个 非 结 构 化 的 (i,j) 列 来 描述 的 ， 而 不 是 每 列 的 数据 。 合 理 分 配 
数据 能 够 提升 应 用 在 表面 点 和 垂直 穿 过 的 地 下 点 的 直接 寻 址 方式 的 数据 紧密 程度 。 

从 图 3-4 的 代码 段 中 可 以 看 出 ， 重 组 数据 能 够 使 按 列 进行 独立 量化 处 理 的 循环 操作 具有 
一 个 完美 的 跨度 减 1 访问 模式 。 但 是 我 们 同时 也 要 考虑 以 下 两 个 方面 。 首 先 ， 由 于 使 用 了 类 
似 于 有 限 差 分 的 方法 ，HBM 模型 可 看 作 一 个 9 点 stencil 计算 模型 。 因 此 一 些 循环 过 程 不 仅 
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要 处 理 实际 点 ， 还 要 处 理 它 的 东西 、 南 、 北 、 东 北 、 东 南 、 西 北 和 西南 方向 上 的 邻居 网 格 
点 数据 。 所 以 处 理 列 的 确定 位 置 (i,g) 时 ， 还 需要 访问 邻居 元 素 的 数据 且 使 用 合适 的 数据 
分 布 方式 以 保持 2 维 空间 转换 至 1 维 空间 上 的 位 置 关系 。 其 次 ，HBM 模型 需要 处 理 整个 湿 
点 集合 ， 而 不 只 是 一 列 数据 ， 所 以 列 的 遍历 方式 也 是 非常 重要 的 一 方面 。 


do iw = l,iw2 
i = ind(1,iw) 
j = ind(2,iw) 


! Note that get IE aps iw),ind(2,iw)) by 
! definition of ind(1: an A 
! All surface wet- ond (i,j) reached with stride-1: 
> WU) oss 
enddo 
do iw = 1,iw2 
kb = kh(iw) ! bottom value at column iw 
if (kb < 2) cycle 
i = ind(1,iw) 
j = ind(2, iw) 
mi0 = mcol(iw) - 2 
do k = 2, kb 


! all subsurface wet-points (i,j,k) are reached 
! with stride-1: 
mi = mi0 + k 
ia WORD aes 
enddo 
enddo 
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图 3-5 表示 图 3-2 三 维 网 格 中 的 一 维 数 据 结构 分 布 情 况 。 其 中 [1:iw2] 代表 活跃 的 表面 点 是 ， 
[iw2+1 :iw3] 代表 活跃 的 地 下 点 ， 而 不 活跃 点 用 [0] 表示 


表面 点 的 任何 遍历 方式 都 可 以 用 基本 方法 实现 。 事 实 上 ,任何 一 种 遍历 法 最 终 都 能 找到 
最 佳 临界 点 。 每 种 遍历 方法 都 会 分 配 一 个 独特 的 缓存 模式 (D1, L2, L3 和 TLB) 且 有 些 遍 
历 方法 要 比 其 他 方法 好 。 假 设 我 们 能 够 在 三 个 索引 数组 数据 集 上 使 用 大 小 、 延 运 、 排 他 性 和 
包容 性 类 型 描述 目标 计算 机 的 存储 系统 ， 那 么 我 们 将 如 何 调 整 基 本 的 遍历 方式 以 获得 最 优 的 
临近 点 呢 ? 

作为 一 个 说 明 性 例子 ,我 们 将 展示 两 种 不 同 的 启发 式 遍 历法 Hl 8I H2. H1 的 遍历 方法 
是 从 上 层 的 西北 角 开 始 ， 然 后 从 北向 南 遍 历 ,， 一旦 完成 了 南方 的 大 部 分 坐标 ， 然 后 向 东 移 动 
一 格 并 再 次 从 北向 南 计数 ， 以 此 类 推 ， 直 至 到 达 东 南 角 的 点 。 在 一 个 真实 情形 (E 
据 集 ，2 海里 范围 ， 分 辨 率 为 77285 表面 点 和 7136949 地 下 点 ) 下 ， 使 用 这 种 方法 遍历 的 结 
果 如 图 3-6 所 示 。 图 3-6 说 明了 该 数据 集 在 给 定 索引 距离 为 1 一 10 的 空间 内 邻居 的 8 个 在 
地 理 位 置 最 近 的 湿 点 中 有 多 少 个 能 够 成 为 近邻 。 

基于 9 点 stencil 的 计算 模型 使 用 启发 式 H2 能 够 提高 DI 利用 率 。 为 了 找到 最 佳 邻近 
点 ， 我 们 让 网 格 单元 在 索引 遍历 中 尽 可 能 接近 邻居 单元 。 如 果 我 们 能 够 在 矩形 或 立方 体 上 保 
证 这 些 ， 我 们 将 更 进一步 完成 使 用 空间 填充 曲线 的 任务 。 在 一 个 如 图 3-3 或 图 3-8 这 样 的 不 
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规则 数据 集 上 提出 一 个 正确 的 解决 方案 非常 具有 挑战 性 。 

图 3-6 清晰 地 显示 了 使 用 H2 方法 使 得 stencil 邻居 单元 的 较 大 部 分 (第 1、4 行 ) ER 
引 空 间 中 距离 更 近 。 然 而 ， 这 种 遍历 方法 是 有 代价 的 且 索 引 空 间 上 距离 为 10 以 外 的 点 与 
stencil 中 心 (第 2、3 行 ) 的 距离 更 大 。 在 HI 方法 中 ， 没 有 被 D1 命中 的 邻居 点 可 能 会 在 L2 
ak L3 中 命中 ， 而 在 H2 方法 中 它们 的 距离 太 远 以 至 于 在 TLB 中 找 不 到 。 这 个 例子 主要 用 于 
强调 考虑 了 数量 因素 : D1、L2、L3 和 TLB 的 大 小 与 延迟 ， 以 及 原始 2 维 空间 中 的 距离 和 1 
维 索 引 空 间 的 距离 后 ， 很 难 制定 一 个 最 佳 邻近 点 的 方案 。 


使 用 HI1 方 法 得 出 的 到 8 个 领域 的 距离 


Nw Ne [E Je js Jw |w — 
2.00% 
[MAX | aoj 1| 398| 39| 400| 1| 398| 399 
MEDIAN 320 


使 用 H2 方 法 得 出 的 到 8 个 领域 的 距离 
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图 3-6 使 用 Hl 和 H2 方法 得 出 的 到 8 个 领域 的 距离 。 第 1 行 表 示 2D 领域 中 的 点 也 接近 索引 空间 的 
百分比 ， 其 中 ， 接 近 定 义 为 索引 号 差 值 小 于 10 
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我 们 认为 解决 最 佳 邻 近 点 问题 是 一 个 公开 问题 ， 作 为 最 优 解 问题 将 包含 所 有 相关 参数 
并 找到 最 合适 的 遍历 方法 。 其 解决 方案 必须 充分 支持 任何 真实 测试 用 例 下 模型 代码 用 户 可 能 
使 用 的 任何 类 型 缓存 系统 。 然 而 ， 为 了 解决 一 个 优化 问题 (如 求 下 界 的 NP 难题 )， 我 们 需要 
使 用 局 发 式 或 近似 法 。 对 于 本 章 的 测试 用 例 ， 我 们 尽 可 能 让 用 例 简单 一 些 并 坚持 使 用 启发 式 
HI 描述 ， 并 且 有 可 能 为 了 以 后 的 调整 而 偏离 该 问题 。 


3.6 HBM 上 的 线程 并 行 


TE HBM 的 MPI 并行 化 和 OpenMP 并 行 化 中 ,我 们 假设 所 描述 的 表面 点 和 下 面 列 出 的 遍历 
方式 是 固定 的 ， 如 果 没 有 这 个 前 提 我 们 将 面临 着 计算 复杂 度 问题 。 但 这 一 假设 规定 的 简化 意味 着 
我 们 现在 面临 的 不 再 是 计算 复杂 性 。 这 使 我 们 能 够 同时 使 用 精确 算法 和 启发 式 方法 分 别处 理 离线 
与 在 线 的 线程 或 任务 的 负载 均衡 问题 。 此 外 ， 它 允许 我 们 能 够 在 不 同 的 相关 测试 用 例 上 评估 不 同 
的 局 发 式 方法 。 值 得 强调 的 是 ， 不 管 我 们 采用 何 种 方法 均衡 ， 另 一 种 遍历 点 方法 都 将 强制 处 理 
数据 的 男 一 个 线程 分 布 。 下 面 是 负载 均衡 问题 的 定义 ， 图 3-7 展示 了 点 是 如 何 分 配 到 线程 中 的 。 


图 3-7 该 图 显示 了 每 个 线程 处 理 一 组 表面 点 集合 和 对 应 表面 点 的 地 下 列 的 子 区 域 。 此 外 ， 需 要 注意 
每 个 线程 还 有 非 活 跃 点 出 现 
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首先 令 了 = {1, =, m 作为 列 的 索引 集合 ，{wi,…, We} 表示 与 各 列 相关 的 权重 ，n 表示 
使 用 的 线程 /任务 数 。 对 于 覆盖 了 7 的 不 相交 的 子 区 间 Z; m (Uu) =1.… 使 得 向 量 (co Cn) 
的 开销 为 : 

C; =} "j 


使 用 C; AY ER (ETE IREX 23] 4 [n] EE BE FR Bl] — ^] Et X DS BE ak 2 EN, A BY 
PHI Kia 

数据 结构 上 面 的 计算 复杂 性 现在 已 经 转变 为 公认 的 整数 分 割 问 题 ， 即 一 个 时 间 复 杂 度 为 
O (nm^) 的 精确 算法 。 例 如 本 书 中 由 Skiena (2008 ) 编写 的 8.5 节 。 对 于 中 等 大 小 n 和 合理 
输入 数据 集 的 局 发 式 方法 是 一 个 典型 的 贪 楚 算法 ， 即 将 列 添加 到 当前 线程 中 ， 直 到 总 和 超过 
每 个 线程 的 平均 负载 数 。 作 为 一 种 选择 ， 我 们 必须 要 考虑 到 这 种 情况 ， 这 种 方法 可 能 会 大 量 
重复 使 用 ， 并且 如 果 这 使 总 和 更 接近 于 每 个 线程 的 平均 负载 ， 那 么 会 只 把 下 一 列 数据 添加 到 
当前 线程 池 中 。 这 两 种 启发 式 方法 的 时 间 复 杂 度 都 为 O (n) 且 都 可 以 作为 在 线 实验 的 合理 候 
选 方法 。 这 将 是 HBM 默认 的 公平 分 享 版 本 的 替代 选择 。 

巴 芬 湾 的 测试 用 例如 图 3-8 所 示 ， 图 3-9 表示 的 是 负载 均衡 所 面临 的 挑战 。 





85W 75°W 65°%W 55°%W 45°W 





图 3-8 巴 分 湾 地 图 测试 用 例 的 地 图 〈 左 ) 和 带 有 平方 米 深度 刻度 的 相关 网 格 地 形 的 地 图 ( 右 ) 


我 们 将 图 3-9 中 的 列 拆 分 为 4 个 部 分 ， 目 的 是 为 了 平均 列 长 度 与 极端 列 长 度 的 数据 。 图 
中 的 间隔 数字 表示 列 的 间隔 。 

我 们 试图 量化 工作 负载 中 的 默认 局 发 式 方法 与 图 3-10 中 对 于 巴 分 湾 测 试用 例 使 用 的 精 
确 算法 之 间 的 差异 性 。 如 图 3-10 所 示 ， 以 上 述 两 种 方法 为 核心 的 解决 方案 非 党 相似。 我们 
很 难 从 2 维 或 3 维 的 纯 负载 曲线 上 找到 它们 的 不 同 之 处 。 不 同 的 曲线 只 是 表示 不 同 的 解决 方 
案 而 已 。 由 2 维 曲线 可 以 看 出 ， 在 这 种 特殊 情况 下 ， 使 用 数据 结构 思想 寻找 均衡 点 的 方法 可 
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能 比 使 用 拆 分 成 子 区 间 的 精确 算法 更 好 。 我 们 认为 在 使 用 较 少 线程 时 没 必要 使 用 精确 算法 。 
比如 在 Intel Xeon 处 理 需 运行 只 使 用 了 48 个 线程 。 


均值 = 92.35， 众 数 = 100， 标 准 差 = 32.59 
2500 


14560 
[ 1211.137 ] 
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图 3-9 ” 巴 芬 湾 测 试用 例 中 的 列 长 度 分 布 





值得 注意 的 是 ， 在 定义 均衡 问题 上 的 权重 指 的 是 子 权 重 的 总 和 。 同 时 保留 了 问题 的 复杂 
性 。 即 如 果 一 个 点 是 湿 点 那么 设置 权重 为 1.0， 其 他 地 方 为 0.0。 PE 
式 。 男 一 种 定义 也 可 以 使 用 列 的 个 数 ， 比 如 ， 通 过 w=a*s,。+B*ss,, 公 式 设置 权重 ， 其中， 
表示 表面 湿 点 的 数量 , 5s 表示 对 应 的 地 下 湿 点 的 数量 ,，a 和 有 是 可 调节 参数 。 

通过 进行 不 同 的 实验 测试 ， 我 们 试图 得 到 这 些 权 重 的 相关 参数 并 确定 最 佳 均衡 位 置 系 
数 。 更 多 详细 信息 请 见 本 章 参 考 文献 部 分 。 

一 旦 我 们 确定 了 线程 间 如 何 拆 分 的 问题 ， 我 们 应 当 考 虑 应 用 程序 将 如 何 使 用 线程 。 
EET, ANVIER ERNE OpenMP (CERES SPMD MAIEMA, WES 
基于 按 列 循环 的 方法 一 致 。 因 此 ， OpenMP FETAI MPI HEAT A US [IAE ERI, 理想 情况 
F, OpenMP 栅栏 应 该 围绕 着 MPI halo 交换 使 得 线程 间 同 步 时 间 最 短 。 当 然 ， 这 就 意味 着 
OpenMP 部 分 非常 大 ， 同 时 在 所 有 循环 中 所 使 用 的 循环 与 数据 结构 都 是 结构 化 的 并 统一 
Ho Æ NUMA 架构 中 ， 我 们 为 了 提高 性 能 需要 明确 处 理 “ 第 一 次 接触 ”策略 。 幸 运 的 是 ， 
对 于 我 们 方法 中 的 所 有 变量 而 言 ， 确 保 正 确 的 NUMA 布局 相对 容易 。 图 3-11 展示 了 上 述 部 
分 的 代码 段 。 子 例 程 domp_get_domain 将 为 每 个 线程 提供 其 上 限 和 下 限 (分 别 为 nu 和 
nl1)， 且 可 以 在 初始 化 时 读 取 分 解 进行 赋值 或 在 第 一 次 调用 kh 和 iw2 特定 输入 模型 时 产生 。 
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然后 ， 任 何 后 续 调 用 domp get domain 的 图 数 都 将 在 idx 数组 中 查找 并 将 分 解 结果 (nl 
和 nu) 传递 给 当前 调用 者 。 这 种 方法 减轻 了 显 式 线程 作用 域 的 负担 。 作 用 域 通常 在 Fortran 
语言 中 使 用 ， 通 过 创建 作用 域 可 以 将 所 有 栈 变 量变 成 线程 的 私有 变量 。 


omp default 240 2D omp default 240 3D 
600 30000 
500 25000 
go ‘ ae 
HE 4E 45000 
器 300 Hs 
HR nz 








0 HUES UE o MA AA AM 
A 0 50 100 150 200 250 B 0 50 100 150 200 250 
线程 数 线程 数 
omp exact 240 2D omp exact 240 3D 





c 0 50 400 150 200 250 O 50 100 150 200 250 


线程 数 线程 数 


diff-default vs exact 240 2D diff-default vs exact 240 3D 





10 500 
400 
一 5 
一 300 
R i$ 200 
— 0 HIBIL. IT | = 
e 通 100 
机 
0 
-5 
-100 
-0 一 
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图 3-10 5 240 个 线程 都 相关 的 表面 点 和 地 下 点 的 数量 。 注 意 ， 在 240 个 线程 上 它们 之 间 的 差别 非常 
大 。 所 展示 的 2 维 不 均衡 可 以 通过 使 用 权重 或 者 其 他 遍历 列 方式 进行 处 理 
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! SOMP PARALLEL DEFAULT (SHARED) 

Call, mima. ft(o...)4 Call Foal avs POL Bariss ak? 
!SOMP BARRIER 

call halo update(...) 

! SOMP BARRIER 

Gall’ Daz( ... )$6all dquiüx(...)j 

!SOMP END PARALLEL 


subroutine numa ft(...) 
call domp get domain(kh, 1, iw2, nl, nu, idx) 
x(nl:nu) = 0.0 8 ! first touch of thread-local surface 


do n-nl,nu 
kb = kh(n) 
if (kb » 1) then 
ml = mcol (n) 
mu = ml + kb - 2 
x(ml:mu) = 0.0 8 ! first touch of thread-local subsurface 
endif 
enddo 
end subroutine numa ft 


subroutine foo(...) 
call domp get domain(kh, 1, iw2, nl, nu, idx) 
do iw-nl,nu 
i = ind(l,iw) ! all threadlocal surface wet-points 
j = ind(2,iw) ! (i,j) reached with stride-1 
à u (iw) 
enddo 
do iw=nl,nu 
kb = kh(iw) 
if (kb < 2) cycle 
j ind(l,iw) 
ind(2,iw) 
= mcol(iw) - 2 ! mid-point in stencil 
= mcol(msrf(i-1,j)) - 2 ! north-point in stencil 
min(kb,kh(msrf(i-1,j))  ! upper bound on fat k-loop 
do k = 2, ub ! the fat stencil loop 
! all threadlocal subsurface wet-points (k,i,j) and 
! (k,i-1,j) are reached with stride-1 
mi = miO + k ! mid-point in stencil 
mn = mnO + k ! north-point in stencil 
üu(mi) ... u(mi) 
enddo 
do k = ubtl, ... ! remainder loops 
enddo 
enddo 
end subroutine foo 


图 3-11 NUMA“ 第 一 次 接触 ”的 代码 段 





3.7 ”数据 并 行 : SIMD 回 量化 
本 节 将 介绍 我 们 在 HBM 模型 上 做 的 SIMD 向 量化 工作 。 图 3-12 中 代码 段 展 示 了 通过 
循环 构成 整个 HBM 模型 的 过 程 。 


! horizontal - mpi/openmp parallelization 
! vertical - vectorization 





图 3-12 HBM 基本 循环 结构 代码 段 
我 们 已 经 实现 了 最 外 层 循环 的 OpenMP 优化 ， 这 就 意味 着 循环 中 将 不 存在 数据 依赖 。 
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因此 我 们 也 可 以 使 用 SIMD 向 量化 最 外 层 iw 循环 。 然 而 ， 对 k 循环 做 跨度 减 1 次 访问 且 
同时 不 在 iw 循环 中 使 用 的 局 限 性 使 得 该 想法 难以 实施 。 现 在 的 SIMD 硬件 在 真正 意义 上 
还 不 能 支持 非 同 步 并 行 读 / 写 访 问 。 例 如 ， 在 VEX 指 令 集 上 实现 的 gather 和 scatter 操作 
可 以 被 视 为 作用 于 缓存 行 上 数据 元 素 时 的 一 系列 加 载 /存储 的 缩写 符号 。 根 据 Hofmann 等 
A (2014) 的 调查 ， 在 器 多 个 缓存 行 的 向 量 上 使 用 gather 操作 的 执行 效率 较 低 ， 因 此 我 
们 在 垂直 循环 上 使 用 普通 的 向 量 加 载 指令 会 获得 不 错 的 效果 ， 因 为 这 里 使 用 的 是 跨度 减 1 
模式 。 

这 样 做 的 目的 是 要 确保 所 有 的 k 循环 能 够 很 好 地 进行 SIMD 向 量化 并 且 这 需要 编译 器 
把 k 循环 当 作 跨度 减 1 循环 来 处 理 。 


3.7.1 零散 的 可 优化 部 分 


在 处 理 源 代码 的 过 程 中 ,我 们 发 现 了 一 些 零 散 、 细 小 的 可 优化 部 分 。 例 如 间接 引用 、 假 
定形 状 参数 和 k 个 循环 的 最 内 层 循 环 分 支 。 在 我 们 集中 精力 调整 生成 SIMD 代码 的 同时 ， 我 
们 将 列 出 几 个 能 够 转化 为 性 能 提升 的 零碎 可 优化 部 分 样 例 。 图 3-13 一 图 3-15 展示 了 对 初始 
化 需要 重 写 部 分 的 优化 伪 代 码 步 又 。 原 始 代 码 中 的 起 始点 如 图 3-13 所 示 。 


real(8), intent(in) :: u(0:) ! OBSTACLE: assumed-shape 


do iw- ! horizontal - mpi/openmp 
! parallelization 


i = ind(l,iw) 

jj = ind(2,iw) 

kb = kh (iw) 

do k=2,kb ! vertical - vectorization 
mjj = mmk(i,jj,k) 


if (u(mjj) >= 0) then ! OBSTACLES: indirect addressing 
! and branching 


else 

yag El 
endif 
enddo 


enddo 





图 3-13 原始 代码 布局 


我 们 发 现 原 始 代码 中 的 间接 寻 址 来 自 三 维 索引 查询 表 mmk (i,jj,k)。 这 个 数组 将 网 
格 点 索引 数据 集 (i, jj,k) 转换 到 与 之 对 应 的 湿 点 索引 上 ， 如 果 (1,33, k) 表示 的 是 在 陆 
地 上 或 海平 面 以 下 的 湿 点 那么 就 返回 0 值 。 如 同 数据 结构 中 的 说 明 一 样 ， 我 们 可 以 使 用 更 少 
的 存储 和 直接 寻 址 方式 从 msrf (i,j)、mcol (iw) 和 kh (iw) 数组 中 获得 相同 的 信息 。 另 
外 两 个 障碍 是 假定 形状 参数 和 最 内 层 循环 的 分 文 ， 它 们 可 以 通过 把 代码 转换 到 片段 中 CUL 
图 3-14 ) 处 理 (在 后 面 的 介绍 中 我 们 去 掉 了 额外 工作 部 分 ， 目 的 是 详细 描述 调 优 版 本 所 需 的 
关键 步骤)。 

在 伪 代 码 段 中 ， 我 们 使 用 foo (i, j,k) 作为 在 网 格 点 (1,3, k) 上 评估 更 复杂 表达 的 
缩写 符号 ; 因此 foo 并 不 是 代表 着 数组 查找 或 函数 调用 。 

换 而 言 之 , 点 (i,jj,k) 上 的 t1 是 同一 列 (1,53) 上 的 t2 项 或 从 邻居 列 (i, jj+1) 到 
右 侧 的 相似 项 。 注 意 ， 虽然 图 3-13 中 代码 段 由 于 使 用 间接 寻 址 能 够 一 直 执行 k 循环 的 底部 ， 
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但 如 果 我 们 想 要 在 两 个 主 k 循环 中 保留 纯粹 的 跨度 减 1， 那 么 我 们 必须 在 图 3-14 的 代码 段 
中 保留 一 个 循环 。 然 后 ， 我 们 发 现 把 组 合 中 高 有 两 个 其 他 数组 hx 和 W tl 表示 为 : 


real(8), intent(in), contiguous :: u(0:) 


do iw- ! horizontal - mpi/openmp parallelization 


i 
33 
mj 0 
ub 
j J3 
miO mcol(msrf(i,j)) - 2 
do k=2,ub ! main loop 1 - vectorization 
mjj = mjO + k ! mjj == mi 
mi = mil + k 
tl(mjj) = ... * max(sign(one,u(mjj)),0) *foo(i,j,k) 
enddo 
J = 33*1 
M10 = nicol msrf (iry) = 2 
do k=2,ub ! main loop 2 - vectorization 
mjj = mjO + k ! mjj /= mi 
mi = miO + k 
tlímjj) = som * miní(sign(one,u(mjj)),0)*foo(i,J)*1,k) 
enddo 
do k=ub+1, kh (iw) ! remainder loop 
t1(mjj) 
enddo 
enddo 


ind (1,iw) 

ind (2, iw) 

mcol(iw) - 2 
min(kh(iw),kh(msrf(i,jj*1))) 





图 3-14 第 1 步 , 初始 化 部 分 代码 重 写 


do n-n2dl,n2dl 
i = ind(1l,n) 
j = ind(2,n) 
miO = mcol(n) - 
do k-2,kh (n) 
mi = miO + k 
t4(mi) = foo(i,j,k) 
enddo 
enddo 
do n=n2d1,n2dl 
i = ind(1,n) 
j ind(2,n) 


min(kh(n),kh(msrfí(i,jj*1))) 
mcol (n) - 2 
mcol(msrf(i,jj-*1)) > 2 
do k-2,ub 


= mi + k 
= meO + k 
uhx = hx (mi) *u (mi) 
tl(mi) = t4(mi)*max(uhx,0) + t4 (me) *min (uhx, 0) 
enddo 
do k=ub+1, kh (n) 
tl(mi) = 0 
enddo 
enddo 


mi 





图 3-15 第 2 步 ， 零 碎 可 优化 部 分 重 写 


t1(mjj)*hx (mjj) *u (mjj) 
以 至 于 我 们 推断 出 的 结果 还 不 如 使 用 系数 : 


max/min (hx (mjj)*u(mjj),0) 
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主要 原因 不 在 于 if-else 分 支 的 判断 语 名 上， 而 是 所 有 操作 的 两 次 执行 上 。 现 在 
我 们 的 目标 就 是 要 消除 多 余 的 两 次 执行 过 程 。 首 先 ， 我 们 发 现 需 要 同时 计算 (1,33) 和 
(i,j3*1) 项 并 由 以 下 代码 做 出 选择 : 


uhx = hx (mjj) *u(mjj) 
t1(mjj) = foo(i,jj,k)*max (uhx, 0) 
十 foo(i,jj+1,k) *min (uhx, 0) 


但 当 程 序 执行 到 右 侧 jj+l 的 邻居 列 时 ， 我 们 还 要 在 点 (i,jj+1,k) 上 再 做 一 次 foo it 
算 。 而 此 时 会 得 到 MAX () 的 权重 ， 而 不 是 MIN() 的 。 

另 一 方面 ， 我 们 应 该 在 只 运行 一 次 的 地 方 考虑 使 用 “两 级 火箭 ”人 优化。 例如， 在 
(i,3,X) 位 置 对 所 有 的 湿 点 (1,3, k) 做 foo 计算 ， 在 临时 数据 (t4) 上 进行 存储 ， 以 及 最 
后 使 用 最 大 或 最 小 图 数 把 它 存 储 到 tl 中 。 图 3-15 展示 了 该 伪 代 码 片 段 。 

上 述 转换 过 程 对 编译 器 是 透明 的 ， 并 且 它 将 生成 SIMD 优化 代码 。 然 而 ， 这 些 转 换 不 
足以 生成 高 效 的 SIMD 代码 。 因 此 下 一 步 的 代码 生成 和 代码 轮廓 调整 工作 为 进程 的 优化 提 
供 了 指导 。 我 们 必须 确保 适当 均衡 的 计算 强度 和 合理 的 缓存 压力 。 我 们 通过 减少 缓存 刷新 
的 循环 次 数 数量 的 方式 对 后 者 进行 了 分 析 ， 而 对 前 者 做 了 设计 选项 的 要 求 。 在 本 章 特定 的 9 
点 stencil 模板 计算 应 用 程序 中 ， 我 们 有 两 种 选择 。 我 们 可 以 试图 通过 将 循环 拆 分 为 两 个 子 
循环 的 方式 最 大 化 向 量化 长 度 。 这 些 循环 主要 是 指 处 理 stencil (如 iw) 中 点 的 循环 ， 例 如 
带 有 两 个 分 支 语 句 的 iw, 在 8 点 邻居 上 做 额外 操作 的 循环 kh (iw) 。 事 实 上 ， 如 果 能 够 还 
原 ， 邻 居 循环 也 可 以 拆 分 为 8 个 子 循环 。 此 外 ， 我 们 还 可 以 通过 构造 大 的 循环 结构 来 同时 处 
理 stencil 的 中 点 和 它 的 8 个 邻居 。 但 要 确保 跨度 减 1 访问 的 步 长 数 必 须 是 9 列 长 度 的 最 小 
值 kmin。 然 后 ， 需 要 在 长 度 超过 kmin 的 列 中 执行 这 8 次 循环 。 通 过 依次 分 析 循 环 中 的 示 
踪 剂 平流 代码 后 我 们 发 现 ， 后 一 种 设计 (具有 一 个 大 循环 和 剩 下 的 不 超过 8 个 循环 数 ) 比 拆 
分 为 多 个 (不 超过 9 个 ) 小 循环 方法 的 性 能 要 好 许多 。 


3.7.2 ”过 早 抽 象 是 万 恶 之 源 


实际 上 ，HBM 的 示 踊 物 平流 部 分 在 为 一 个 示 踪 物 的 数量 的 垂直 循环 意义 上 有 些 特殊 。 
这 个 最 内 层 nc 循环 只 存在 于 HBM 代码 的 示 踪 物 相关 部 分 。 垂 直 循环 内 部 的 示 踪 物 循环 代 
码 段 如 图 图 3-16 所 示 。 


! horizontal - mpi/openmp parallelization 


! vertical 一 vectorization 


! innermost loop (in advection) with 


! number of tracers 





图 3-16 市 有 示 踊 物 循环 的 基本 循环 结构 
本 节 将 介绍 最 简单 的 硬件 抽象 (2 维 数组 ) 是 如 何 导 致 在 Intel Xeon Phi Hk Far E 2 


HBM 上 的 SIMD 5 HEK 49 


倍 性 能 损失 的 。 这 从 侧面 验证 了 我 们 之 前 的 假设 一 一 硬件 抽象 代价 太 大 。 
最 初 的 设想 是 保持 2 维 数组 中 所 有 的 示 踪 部 分 以 及 使 用 一 种 相似 的 方式 连贯 地 处 理 该 部 
分 。 图 3-17 展示 了 简化 的 代码 段 。 


1 do k=2,kmax 
k1 k+off1 


k2 k+offZ 
t(lene,k) = ttlenc,k) t ACK)* (B(1Line, k1l)=—B(Lenc, k2)) 
5 enddo 





图 3-17 简化 的 代码 段 


通过 编译 这 部 分 代码 我 们 发 现 : 

编译 需 使 用 动态 nc 回 量化 nc 循环 : 

(4): (col. 7) remark: LOOP WAS VECTORIZED 
EERS nc 向 量化 k 循环 : 

(1): (col 7) remark: LOOP WAS VECTORIZED 
生成 的 代码 如 下 : 


AVX (基本 上 是 一 个 软件 集合 操作 ): 


vmovsd (%rl0,%rcx,2), %xmm6 

vmovhpd 16($r10,$rcx,2), $xmm6, %Gxmm6 
vmovsd 32($rl0,$9$rcx,2), £xmm7 

vmovhpd 48 (%r10,%rcex,2), $xmm7, %xmm/7 
vinsertf128 $1, %xmm7, %ymm6, $ymm7 


MIC (一 个 硬件 集合 ): 


vgatherdpd ($r13,$zmm2,8), $zmm6($k5) 


我 们 实现 了 我 们 所 希望 达到 的 ， 既 不 是 MIC 目标 也 不 是 AVX (VB) 目标 。 必 须 承 认 的 
是 ，SNB/IVB 架构 上 的 256 位 非 对 齐 加 载 /存储 是 已 知 问 题 ， 所 以 软件 集合 不 像 它 看 起 来 的 
那么 差 。 下面 将 分 析 我 们 没有 得 到 普通 问 量 负载 的 原因 。 静 态 nc 意味 着 要 进行 展开 ， 展 开 
又 意味 着 优化 者 把 循环 看 作 跨 度 减 nc 循环 。nc=2 的 c.f. 代码 段 如 图 3-18 所 示 。 


do k=1, kmax 
kl = kt+offl 
k2 = k+off2 


L(l,X) = t(L,k) ^ A(k)*(B(l,kl)-B(l,k2)) 
t(2,k) = t(2,k) + A(k) * (B(2, k1) -B (2, k2)) 
enddo 





图 3-18 ”展开 示 踪 物 循环 
我 们 知道 编译 器 能 够 做 到 这 一 点 ， 但 是 我 们 还 是 建议 使 用 图 3-19 中 的 样式 。 
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2 维 与 1 维 ( 通过 nc=2 载 入 ) 混合 的 处 理 过 程 


zmml 
zmm2 
zmm3 
zmm4 
zmm5 
zmm6 
zmm7 
zmm8 


t(1,1) 
t(1,5) 
B(1,1*kl) 
B(1,5*k1) 
B(1,1+k2) 
B(1,5*k2) 
A (1) 

A(5) 


t(2,1) 
t (275) 
B(2,1*kl) 
B(2,5*k1) 
B(2,1+k2) 
B(2,5*k2) 
A(1) 
A(5) 


t(1,2) 

t (1,6) 
B(1,2+k1) 
B(i,6+k1) 
B(1,2+k2) 
B(1,6+k2) 
A(2) 

A(6) 


t(2,2) 

t (2,6) 
B(2,2+k1) 
B(2,6*k1) 
B(2,2+k2) 
B(2,6+k2) 
A(2) 

A(6) 


t(1,3) 
£(1,7) 
B(1,3+k1) 
B(1,7+k1) 
B(1,3+k2) 
B(1,7+k2) 
A(3) 

A(7) 


t(2,3) 
t(2,7) 
B(2,3*k1) 
B(2,7*k1) 
B(2,3*k2) 
B(2, 7+k2) 
A(3) 

A(7) 


t(1,4) 

t (1,8) 
B(1,4+k1) 
B(1,8+k1) 
B(1,4+k2) 
B(1, 8+k2) 
A(4) | 
A (8) 


t(2,4) 

t (2,8) 
B(2,4+k1) 
B(2,8+k1) 
B(2,4+k2) 
B(2,8+k2) 
A (4) 

A(8) 


2 维 与 1 维 ( 算法 层面 ) 混合 的 处 理 过 程 


zmm9 
zmmi0 


zmml 
zmm2 


kmax 
ktoffl 

kt*off2 

= tl(k) + A(k)* (Bl(k1)-B1(k2)) 
= EZ(k) + A(k) * (B2(k1) -B2(k2)) 


t1 (k) 
t2 (k) 





图 3-20 ”只 使 用 1 维 数组 的 编译 器 重 写 


因此 ， 要 优化 生成 的 代码 我 们 必须 简化 并 更 改 代 码 以 便 也 使 用 1 维 数组 表示 示 踪 物 ， 
BN, FA 3-20 所 示 的 使 用 tl1(1:) Mt2(:), mi t(1:2,:). 

此 外 ,我 们 可 以 尝试 互 换 循 环 (用 nc 倍 的 存储 带宽 和 缩短 1/nc 的 向 量 长 度 )。 这 里 总 
的 问题 是 含有 多 个 混合 维度 变量 的 循环 。 如 果 所 有 的 变量 具有 相同 的 维度 ， 那 么 编译 器 将 分 
解 循环 并 生成 正确 的 代码 。 


3.8 结果 


本 节 将 展示 HBM 的 性 能 和 平流 模块 的 一 些 特点 。 正 如 前 面 提 到 的 一 样 ， 我 们 选择 调整 
对 流 模 块 是 因为 这 部 分 的 执行 时 间 在 单 节点 的 Intel Xeon 处 理 器 和 Intel Xeon Phi 协 处 理 器 
上 都 占 到 了 总 时 间 的 40% 左右 。 协 处 理 器 上 消耗 的 时 间 是 优化 这 段 代码 前 在 处 理 器 上 时 间 
的 3 倍 。 在 数据 结构 采用 上 述 优化 后 ， 我 们 对 巴 芬 湾 测试 用 例 的 HBM 平流 模块 做 了 对 比分 
析 ， 其 SIMD 和 纯 OpenMP 并 行 化 在 协 处 理 的 本 地 模式 运行 时 性 能 比 双 揪 槽 处理 器 上 的 性 
能 提高 了 约 15%。 然 而 ， 我 们 的 优化 工作 并 未 就 此 停止 ， 我 们 发 现 一 些 提高 缓存 利用 率 的 新 
方法 ， 这 将 进一步 提高 并 行 性 能 。 

所 有 的 巴 分 湾 测 试用 例 都 是 不 规则 的 且 把 这 些 不 规则 的 网 格 分 割 成 一 个 负载 均衡 问题 比 
理想 的 立方 体 测试 用 例 更 难处 理 。 性 能 、 上 述 数 据 局 部 性 、SIMD 和 当前 优化 方法 都 极 大 提 
高 了 Xeon (E5-2697 v2 ) 的 性 能 并 得 到 比 原始 Intel Xeon Phi 协 处 理 器 (KNC) 更 好 的 性 能 。 
对 于 巴 分 湾 测 试用 例 使 用 纯 OpenMP 并 行 化 的 方法 在 KNC 7120A 上 的 并 行 性 能 比 在 处 理 器 
(E5-2697 v2) 上 提高 了 15% 左右 ， 如 图 3-21 所 示 。 

存储 顺带 宽 测 量 结果 表 明 应 用 程序 在 协 处 理 器 上 达到 了 约 90% 的 实际 可 实现 带 (POP), 
并 且 在 处 理 器 上 达到 的 实际 带宽 为 100%。 通 过 Stream Triad 方法 测量 的 实际 带宽 峰值 比 处 
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SHAT AYER 2.15 倍 。 处 理 硕 也 使 用 了 1.45 倍 的 功率 并 达到 了 它 的 峰值 。 我 们 对 于 协 处 理 需 的 
功 耗 测量 只 测量 了 协 处 理 吉 专 用 卡 电 源 。 因 此 从 带宽 数据 我 们 可 以 推 新 ，Intel Xeon Phi 协 
处 理 需 在 数据 重用 方面 还 有 提升 空间 ， 这 将 进一步 充分 利用 各 部 分 时 间 并 尽 可 能 达到 100% 
的 带宽 峰值 利用 率 。 

当 读 者 读 到 本 章 的 SIMD 优化 部 分 时 会 发 现 高 效 利 用 向 量化 对 于 提升 性 能 (尤其 是 在 
Intel Xeon Phi HEAHEA E) 而 言 是 一 种 重要 的 手段 。 向 量化 强度 (VD 是 向 量化 后 的 循环 执 
行情 况 和 使 用 VPU 的 效率 的 评价 方法 。 由 于 512 位 向 量 长 度 限 制 VI 值 在 单 精度 代码 中 不 能 
超过 16 且 在 双 精 度 代 码 中 不 能 超过 8。 如 果 它 的 值 远 小 于 上 述 的 规定 值 ， 这 就 意味 着 向 量 
化 循环 效果 非常 差 或 VPU 没有 高 效 使 用 (访问 次 数 低 ， 且 由 于 存在 条 件 语 句 和 向 量化 ， 屏 
蔽 指令 难以 使 用 )。 平 流 模块 代码 使 用 双 精 度 浮 点 数据 类 型 ， 因 此 VI 值 约 为 7 表明 了 向 量化 
循环 非常 好 且 在 协 处 理 器 上 的 VPU 利用 率 达 到 了 8296 一 96%。 


Xeon POP KNC POP 
BW Xeon BW KNC P/W 
输入 (GB/s) | (%) | (GB/s) .| (%) 


图 3-21 平流 模块 性 能 总 结 










VERE /功率 (PW) 的 提升 是 指 不 同 测试 用 例 在 基本 的 处 理 需 ( Xeon E5-2697 v2) 和 协 
Abas (KNC 7120A) 得 到 解决 方案 的 时 间 比 乘 以 1.45 系数 后 的 结果 。 我 们 使 用 1.45 作为 
系数 是 因为 处 理 侨 ( Xeon E5-2697 v2 ) 达到 峰值 带宽 消耗 的 功率 是 协 处 理 句 ( KNC 7120A) 
功 耗 的 1.45 倍 ， 另 外 当前 应 用 已 经 获得 了 90% 的 峰值 带宽 。 


3.9 详情 分 析 
我 们 使 用 Intel VTune Amplifier XE 2013 工具 对 结果 进行 了 分 析 。 虽 然 我 们 在 优化 过 程 
中 使 用 了 许多 性 能 度量 方法 ， 但 我 们 在 图 3-22 中 只 列 出 最 相关 的 部 分 。 


CLILIIID 
UNC F CHO NORMAL READ,UNC F CH1 NORMAL READ. 
UNC F CHO NORMAL WRITE.,UNC F CH1 NORMAL WRITE 





带宽 
向 量 强度 VPU INSTRUCTIONS EXECUTED.VPU ELEMENTS ACTIVE 


图 3-22 ”用 于 计算 带宽 和 向 量 效率 的 PMU 事件 


VPU INSTRUCTIONS EXECUTED 参数 负责 统计 所 有 回 量 指令 ， 且 VPU ELEMENTS _ 
ACTIVE 参数 负责 统计 针对 癌 量 操作 (内 存 和 算法 ) 的 所 有 VPU 可 用 有 效 通道 。 

对 于 所 使 用 的 配置 文件 ，Intel VTune Amplifier 工具 的 人 硬件 事件 采样 收集 器 能 够 通过 配 
置 文件 概述 使 用 性 能 监控 单元 (PMU) 计数 器 溢出 功能 的 应 用 程序 。 使 用 上 述 测量 值 的 用 例 
数据 大 约 有 1000 万 条 。 而 且 采 样 不 能 保证 数据 的 100% 准确 。 基 于 事件 采样 的 平均 开销 大 
约 是 每 1 毫秒 的 2% 采样 间隔 。 
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图 3-23 展示 了 BaffinBay 2nm 测 试用 例 在 Intel Xeon Phi B Xb H 2$ (KNC) 上 的 
OpenMP 可 扩展 性 。 其 中 x 轴 表 示 内 核 数 目 ，y 轴 表 示 转 化 为 1.0 的 否 吐 量 ( 1/ 时 间 )。 图 中 
时 间 的 单位 是 秒 。 上 述 内 容 所 使 用 的 内 核 线程 数 都 是 4 个 。 从 图 中 可 以 发 现 我 们 的 平流 模块 
在 KNC 上 获得 了 非常 好 的 内 核 可 扩展 性 。 理 想 化 的 内 核 并 发 性 和 可 扩展 性 对 与 Intel Xeon 
Phi 协 处 理 融 非常 重要 。 


HBM 平流 部 分 在 Xeon PhiKNC 7120A 上 的 可 扩展 性 


1.20 Sy 


TPT ( 1/ 时 间 ) 归 一 化 到 1.0 
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图 3-23 Intel Xeon Phi 协 处 理 器 (KNC 7120A) 的 OpenMP 线程 可 扩展 性 


HBM 平流 部 分 在 双 插 槽 Xeon 处 理 器 (E5-2697v2) 上 的 可 扩展 性 
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图 3-24 WMR Xeon 处 理 器 (E5-2697 v2) 上 OpenMP 线程 的 可 扩展 性 
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内 核 个 数 
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HBM 平流 部 分 在 双 插 槽 Xeon AMER (E5-2697v2) 上 的 带宽 使 用 情况 (GB/s) 
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内 核 个 数 


图 3-25” 双 插 槽 Intel Xeon 处 理 器 上 内 核 的 带宽 可 扩展 性 


XX fi Intel Xeon 处 理 需 上 的 可 扩展 性 测试 结果 如 图 3-24 所 示 。 由 图 可 知 ， 其 可 扩展 
性 不 是 非常 好 。 主 要 原因 是 受到 了 内 存 带 宽 的 限制 。 我 们 为 图 3-24 中 各 插 槽 的 内 核 使 用 情 
况 绘制 了 内 存 带宽 利用 率 图 ， 如 图 3-25 所 示 。 一 个 Xeon E5-2697 v2 处 理 器 上 每 个 插 槽 的 内 
存 带 宽 峰 值 大 约 为 43GB/s。 因 此 ， 双 插 槽 的 内 存 带 宽 峰 值 应 该 在 大 约 84 ~ 88GB/s 的 范围 
内 。 我 们 测试 的 应 用 程序 好 像 达到 了 约 6 核 12 线程 0 号 插 槽 的 内 存 带 宽 峰 值 ， 通 过 分 析 图 
3-24 的 扩展 性 图 可 以 得 出 ， 在 峰值 点 后 的 可 扩展 性 开始 变 得 平缓 了 。 然 后 在 第 二 个 插 槽 (1 
dá) 13 核 上 ， 我 们 发 现 扩 展 性 有 所 增长 ， 但 是 在 17 核 上 再 次 达到 1 号 插 槽 的 内 存 带 宽 
峰值 ， 从 而 限制 了 整个 双 插 槽 系统 的 性 能 提升 。 综 上 所 述 ， 我们 可 以 得 出 这 样 的 结论 ， 由 于 
内 存 带 宽 的 限制 ， 处 理 器 性 能 和 可 扩展 性 的 提升 是 有 限 的 ， 但 是 Intel Xeon Phi 协 处 理 需 上 自 
身 的 特点 使 得 这 种 应 用 程序 不 因 内 存 带 宽 的 限制 而 影响 提升 性 能 。 

图 3-26 展示 了 协 处 理 需 重要 的 并 行 性 能 和 良好 的 并 发 性 。x 轴 表 示 从 1 到 60 的 协 处 理 
数目 ,7” 轴 表示 平流 模块 的 吞吐 量 (1 时间)。Intel Xeon Phi 协 处 理 器 上 平流 模块 代码 的 性 
能 似乎 和 100% 并 行 (没有 串 行 代码 ) 的 Amdahl 图 相 匹配 。 例 如 ， 如 果 应 用 程序 中 有 1%、 
3% 和 5% 的 串 行 代码 ， 那么 问题 求解 时 间 将 会 显著 增加 ， 因 此 吞吐 量 将 会 明显 减少 ， 如 图 
3-26 所 示 。 这 完全 符合 Amdahl 定律 。 


3.11 CONTIGUOUS 属性 


FORTRAN 2008 中 的 CONTIGUOUS 属性 明确 规定 了 假定 形状 的 数组 必须 是 连续 的 或 
指针 只 能 指 回 连续 的 对 象 。 在 很 多 情况 下 即使 不 指定 FORTRAN 的 标准 规格 ， 对 象 也 可 以 
是 CONTIGUOUS 事件 。 但 这 种 CONTIGUOUS 属性 使 得 编译 器 优化 变 得 更 容易 ， 这 些 优 
化 依靠 占用 连续 内 存 块 的 对 象 的 内 存 布局 。 

图 3-27 所 示 数 据 清 楚 地 表明 CONTIGUOUS 属性 提升 了 Intel Xeon ( E5-2697 v2) KH 
196 一 2% 的 性 能 ， 对 Intel Xeon Phi 协 处 理 锅 ( KNC 7120A) 的 性 能 提升 更 加 明显 ， 达 到 了 
大 约 20%。 
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图 3-27 在 Xeon fll Xeon Phi 上 使 用 Fortran 的 CONTIGUOUS 属性 获得 的 性 能 提升 





3.12 总结 


本 章 中 使 用 的 许多 技术 和 优化 思路 具有 广泛 的 适用 性 : 对 于 数据 局 部 性 问题 可 以 使 用 线 
程 和 向 量化 技术 。 本 章 中 所 采用 的 思维 方式 可 供 设计 高 性 能 应 用 程序 的 程序 员 借鉴 。 这 样 优 
化 后 的 程序 才能 在 Intel Xeon 处 理 顺 和 Intel Xeon Phi 处 理 融 上 都 获得 性 能 提升 。 

我 们 认为 只 有 专注 于 数据 邻近 性 的 实现 才能 获得 硬件 模型 上 良好 的 SIMD 和 线程 性 能 。 
É HBM 模型 中 一 直 使 用 面向 数据 的 设计 能 获得 较 好 的 性 能 。 如 果 要 选择 符合 并 行 的 大 气 环 
流 模式 代码 ， 数 据 结构 的 设计 是 最 基础 也 是 最 关键 的 部 分 。 在 使 用 SIMD 回 量 化 代码 的 过 程 
中 不 要 忽略 了 克服 琐碎 的 和 一 些 不 那么 明显 的 障碍 。 技 术 虽 然 都 可 以 在 Intel Xeon Ab JE SS All 
Intel Xeon Phi 协 处 理 器 上 使 用 , 但 是 协 处 理 器 的 总 内 存 带 宽 更 大 能 够 使 程序 获得 更 好 的 扩 
展 性 。 对 于 本 章 的 特殊 应 用 ， 相 对 于 在 单 节点 Intel Xeon Phi 协 处 理 郝 上 ， 在 Intel Xeon 处 
理 器 上 获得 了 15% 的 性 能 加 速 比 。Intel Xeon Phi 协 处 理 器 上 的 功 耗 效率 是 非常 吸引 人 的 。 
虽然 协 处 理 器 卡 的 内 存 限 制 现在 是 获取 更 好 性 能 的 瓶颈 ， 但 是 我 们 相信 在 下 一 代 的 Xeon Phi 
协 处 理 器 (Knights Landing) 上 这 一 问题 会 得 到 明显 改善 。 
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3.14 更 多 信息 
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提供 了 线程 可 扩展 性 研究 信息 。 
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è Poulsen, J.W., Berg, P., 2012b. Thread Scaling with HBM. DMI Technical Report No. 
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e She, J., Poulsen, J.W., Berg, P., Jonasson, L., 2013. Next generation pan-European 
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e BOOS: Baltic Operational Oceanographic System, http://www.boos.org/. 

e MyOcean 是 专用 于 GMES (全 球 环境 与 安全 监测 ) 海事 服务 海洋 监测 、 预 报 实施 的 
主要 欧洲 项 目 ，http://www.myocean.eu/。 

e PRACE: Partnership for Advanced Computing in Europe, http://www.prace-ri.eu/. 

e ETOPO1 集成 了 土地 地 形 和 海洋 测 深 的 精度 为 1% 的 全 球 地 形 模 型 http://www.ngdc. 
noaa.gov/mgg/global/global.html 

e 从 http://lotsofcores.com 上 下 载 本 章 和 其 他 部 分 章节 代码 。 
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indexings.Discrete Appl. Math. 117 (1-3), 211-237. 
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流体 动力 学 方程 优化 


Antonio Valles ' , Weiqun Zhang’ 
€H, Intel 公司 ;“ 美 国 ， 劳 伦 斯 伯克利 国家 实验 室 


随 着 Intel Xeon 处 理 器 和 Intel Xeon Phi 协 处 理 需 在 各 节点 上 的 内 核 数 和 线程 数 的 不 断 
增加 ， 基 于 节点 层 上 的 混合 编程 应 用 (MPI-OpenMP) 出 现 了 新 的 优化 方法 。 然 而 ， 现 在 的 
多 数 应 用 程序 不 适合 在 单 节点 上 采用 多 线程 优化 性 能 。 本 章 介 绍 由 美国 劳伦斯 伯克利 国家 实 
RE (LBNL) 和 Intel 公司 合作 完成 的 SMC 应 用 程序 的 并 行 性 能 分 析 和 优化 方法 。 


4.1 开始 


SMC 是 一 种 求解 多 组 反应 可 压缩 的 流体 动力 学 Navier-Stokes 方程 的 并 行 算法 。 它 是 由 
LBNL 的 计算 机 科学 与 工程 中 心 CCCSE) 开发 的 。 简 化 版 的 SMC 代理 应 用 程序 被 高 性 能 计 
算 系 统 厂商 和 美国 能 源 部 潮流 模型 的 百 亿 亿 次 模拟 中 心 用 于 系统 模拟 和 编程 模型 分 析 ，SMC 
的 燃烧 模拟 结果 如 图 4-1 所 示 。 本 章 对 简化 版 的 SMC 进行 分 析 和 优化 。 

主要 采用 Fortran 语言 和 部 分 C 语 言 编 写 SMC 应 用 程序 。 它 是 由 CCSE 开发 的 基于 
BoxLib 软件 架构 实现 的 MPI-OpenMP 混合 并 行 方法 。SMC 采用 有 限 差分 法 来 处 理 在 三 维 坐 
标 中 用 笛 卡 儿 网 格 点 来 表示 的 多 组 流体 动力 学 方程 的 数值 解 。 使 用 Fortran 的 四 维 数组 来 分 
别 储存 坐标 x、”、z 和 组 件 的 数据 。 由 于 在 Fortran 中 的 数组 是 按 列 优先 存储 的 ， 因 此 数据 
在 内 存 中 沿 x 轴 方向 是 连续 的 。 每 个 纬度 上 空间 导数 第 8 BT stencil 使 用 的 数据 来 自 该 维度 
上 的 9 个 网 格 点 。 





图 4-1 使 用 化 学 机 理 的 39 种 二 甲 醚 燃烧 模拟 的 温度 部 分 情况 


本 章 介 绍 的 SMC 版 本 都 可 以 在 GitHub E FAX ( 见 4.9 47). 

本 章 将 介绍 SMC 的 4 个 主要 优化 方法 。 下 面 5 个 版 本 都 已 在 GitHub 上 发 布 。 本 章 详 
细 讨 论 的 内 容 如 下 。 

1) 1.0 版 本 : 基础 版 本 (Baseline). 

2) 2.0 版 本 : 线程 盒 (Threadbox ) 。 

3) 3.0 版 本 : AF (Stack memory). 
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4) 4.0 版 本 : 分 块 (Blocking). 

5) 5.0 版 本 : [n]t& fL, ( Vectorization) 。 

GitHub 上 的 README 文件 说 明了 如 何 编译 和 运行 该 程序 。 该 程序 提供 了 许多 编译 选 
项 (MPI, OpenMP, GNU fikar, Intel 编译 需 等 )。 花 点 时 间 研 究 一 下 inputs SMC 文件 可 
以 学 习 不 同 的 编译 选项 和 运行 选项 。 

程序 的 性 能 由 推进 5 个 时 间 步 长 的 时 间 来 衡量 ， 其 中 不 包含 初始 化 计算 模型 的 时 间 。 在 
实际 运行 时 间 中 也 会 去 掉 初 始 化 时 间 ， 因 为 初始 化 在 程序 执行 过 程 中 只 运行 一 次 ， 而 实际 运 
行 时 间 将 持续 数 天 甚至 数 周 。 

SMC 是 一 个 能 够 在 多 个 MPI 进程 和 OpenMP 线程 上 运行 的 混合 工作 负载 。 但 是 ， 由 于 
SMC 已 经 证 明了 在 MPI 上 较 好 的 罚 可 扩展 性 ， 使 用 高 达 16000 个 MPI 进程 能 够 达到 不 低 于 
90% 的 效率 。 因 此 在 SMC 上 MPI 不 是 性 能 瓶颈 。 接 下 来 将 重点 讨论 如 何 使 用 OpenMP 和 
回 量 化 方法 有 效 提 升 并 发 性 。 我 们 在 1 个 节点 的 1 个 MPI 进 程 上 只 使 用 一 个 模拟 盒子 ， 该 
模拟 盒 包 含 了 128 x 128 x 128 个 网 格 点 。 

在 以 下 两 个 不 同 测试 平台 进行 对 比分 析 。 

1 ) Intel Xeon Phi 协 处 理 需 7120P (代号 为 Knight Corner): 

e 61 核 处 理 器 ， 每 个 内 核 有 4 个 线程 ， 共 61 x 4=244 个 线程 。 

2 ) Intel Xeon 处 理 器 E5-2697 v2 (代号 为 IvyBridge-EP ): 

e Wd. BTA 12 个 内 核 ， 这 些 内 核 支持 Inte 超 线程 技术 ， 共 2 B8 x 每 个 

插 槽 12 核 x 每 个 内 核 2 个 线程 =48 个 线程 。 


4.2 1.0 版本 : 基础 版 本 


我 们 首先 展示 了 使 用 SMC 1.0 版 本 的 基本 可 扩展 性 测试 结果 。 图 4-2 展示 了 协 处 理 器 
OpenMP 线程 可 扩展 性 ， 图 4-3 展示 了 处 理 器 OpenMP 的 线程 可 扩展 性 。 图 中 展示 了 SMC 
推进 时 间 的 倒数 和 OpenMP 线程 数 之 间 的 关系 。 图 上 有 两 个 y 轴 坐标 : 左边 的 y 轴 坐标 是 时 
则 的 倒数 ,右边 的 y 轴 坐 标 是 单位 线程 数 的 性 能 加 速 比 。 我 们 用 左边 的 轴 坐 标 展示 平台 和 
版 本 ( 越 高 越 好 )， 我 们 用 右边 的 y 轴 坐 标 来 了 解 它 的 单个 线程 运行 情况 及 其 可 扩展 性 。 
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单 核 上 的 模拟 盒 大 小 为 128^3 的 SMC 1.0 
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图 4-3 SMC 1.0 版 本 : 处 理 需 线程 可 扩展 性 


从 上 述 两 张 图 我 们 可 以 看 出 ，SMC 1.0 版 本 的 可 扩展 性 并 不 好 。 我 们 使 用 了 一 个 具有 
240 个 OpenMP 线程 的 协 处 理 器 ， 但 仅 得 到 在 Intel Xeon Phi 协 处 理 器 单线 程 上 运行 时 约 38 
倍 的 性 能 加 速 比 。 同 样 ， 我 们 在 一 个 拥有 48 个 OpenMP 线程 的 处 理 器 上 运行 只 得 到 了 在 
Intel Xeon Phi 处 理 需 单线 程 上 运行 时 约 10 倍 的 性 能 加 速 比 。 

我 们 使 用 Intel VTune Amplifier XE 工具 对 OpenMP 出 现 的 性 能 问题 和 潜在 可 优化 
部 分 进行 了 分 析 。 图 4-4 展 示 了 使 用 Intel VTune Amplifier XE 2015 版 本 对 SMC 1.0 在 
Intel Xeon Phi 协 处 理 天 上 进行 OpenMP 性 能 分 析 的 三 个 截图 。 图 中 的 第 一 部 分 是 OpenMP 
Analysis， 其 结果 表明 了 该 应 用 程序 并 行 化 程度 较 低 。 尤 其 是 : Serial Time 和 Potential Gain 
分 别 与 Elapsed Time 和 Parallel Region Elapsed Time 相 比 都 非常 大 。Serial Time 包括 SMC 
的 初始 化 时 间 和 5 个 时 间 步 长 计算 过 程 的 串 行 时 间 。 因 此 我 们 将 重点 关注 Potential Gain 部 
分 ， 而 不 是 它 只 包含 并 行 区 域 。Potential Gain 与 Parallel Region Elapsed Time 的 较 大 比值 表 
明了 该 应 用 程序 还 有 可 优化 的 空间 。 图 中 的 中 间 部 分 是 CPU Usage Histogram， 图 中 展示 了 
固定 数量 CPU 同时 运行 的 时 间 百 分 比 。 从 该 直方 图 中 我 们 可 以 看 出 我 们 现在 的 性 能 与 240 
fit CPU 并 发 性 的 目标 还 有 很 大 的 差距 。 图 4-4 的 最 后 一 个 部 分 是 CPU 的 时 移 图 ， 它 展示 了 
CPU 在 时 间 推 移 过 程 中 的 使 用 情况 。 图 中 的 第 一 行 数据 表示 该 应 用 程序 的 进程 ， 第 二 行 数据 
表示 进程 中 加 载 的 驱动 模块 信息 。 我 们 发 现在 运行 过 程 中 libiomp5.so 模块 使 用 最 多 ， 而 实 
际 工作 模块 (主要 包括 main.intel 等 模块 ) 使 用 次 数 最 少 。 这 就 说 明了 应 用 程序 在 执行 过 程 中 
或 者 只 有 少量 的 可 并 行 区 域 或 者 出 现 严重 的 负载 不 均衡 。 无 论 出 现 上 述 的 哪 种 情况 ，VTune 
Amplifer 揭示 了 应 用 程序 出 现 较 差 性 能 的 主要 问题 在 线程 等 待 上 ， 而 不 是 运行 代码 上 。 

通过 使 用 VTune Amplifer 对 应 用 程序 的 性 能 进行 热点 调查 分 析 ， 我 们 发 现 了 主要 的 热 
点 是 源 文 件 kernels.f90 中 的 diffterm 2 FFE (在 下 面 的 描述 中 ， 我 们 简称 为 diffterm F 
例 程 ) 。 这 个 函数 用 于 计算 流体 动力 学 Navier-Strokes 方程 的 扩散 项 。 扩 散 项 的 计算 过 程 包 
含 了 许多 循环 而 且 这 些 循 环 中 需要 使 用 邻居 单元 格 中 的 数据 进行 stencil 操作 。 通 过 分 析 这 
段 程序 的 源码 ， 我 们 发 现 diffterm 中 有 一 个 较 大 的 并 行 区 域 (如 图 4-5 所 示 )。 虽 然 这 个 并 行 
区 域 比 较 大 ,但 是 它 包 含 了 具有 成 百 上 千 个 OMP DO 操作 的 小 型 般 套 循环 。 这 些 细 粒 度 的 
并 行 难以 达到 最 佳 的 性 能 。 
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®© OpenMP Analysis. n: Elapsed Time: 44.856 
Serial Time (outside any parallel region : : 


Serial Time beris A it racer tacts application Elapsed Time and scalability. Explore options for parallelization, algorithm or 
microarchitecture tuning of the serial part of the application. 


& Parallel Region Elapsed Time: 23.963s (53.4%) 
Estenated Ideal Time: 12.5825 (28.3%) 
Potential Gain (Elapsed Time): "20.2815 (25:1) 
The time wasted on load imbalance or parallel work arrangement is significant and negatively mpacts the application performance and 
scalability. Explore OpenMP regions with the highest metne values. Make sure the workdoad of the regions is enough and the loop schedule... 


4 CPU Usage Histogram 


This histogram displays a percentage of the wall time the specific number of CPUS were running simultaneously. Spin and Overhead time adds to 
the Idle CPU usage value. 
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图 4-4 XMC 1.0 版 本 (Intel Xeon Phi HAIEZ% ) : VTune Amphifier XE 屏幕 截面 ， 上 图 对 应 OpenMP 
分 析 ， 中 图 对 应 CPU 使 用 情况 直方 图 ， 下 图 对 应 一 段 时 间 内 的 视图 


OpenMP 的 工作 机 制导 致 了 细 粒 度 并 行 的 产生 。OpenMP 可 并 行 的 应 用 程序 从 主线 程 开 始 
执行 ， 当 遇 到 并 行 区 域 时 它 将 并 行 区 域 划分 给 多 个 工作 线程 ， 这 时 所 有 的 操作 都 在 并 行 执行 。 
“4 OpenMP 遇 到 OMP DO 共享 工作 结构 时 ，OpenMP 将 循环 迭代 操作 划分 给 各 个 线程 执行 。 
OpenMP 循环 子 句 COLLAPSE (n) 指定 了 在 一 个 藤 套 循环 中 ，COLLAPSE (n) KEM RTE 

到 一 个 大 的 迭代 空间 中 并 在 各 线程 中 进行 划分 。OpenMP 共享 工作 结构 以 OMP END DO 作为 
结束 标记 ， 如 果 NOWAIT 同步 子 句 没有 在 OMP END DO 后 使 用 ， 那 么 在 结束 时 会 出 现 隐 式 栅 
障 。 隐 式 栅栏 使 得 所 有 线程 完成 当前 的 循环 、 结 构 化 块 或 并 行 区 域 ， 才 能 继续 执行 后 面 的 程序 。 

因此 ，OMP DO 共享 工作 结构 表明 实际 的 一 部 分 并 行 工作 会 在 结束 时 产生 隐 式 栅栏 ， 

这 些小 的 并 行 共享 工作 区 域 将 产生 大 量 的 开销 和 负载 不 均衡 。 一 种 可 行 的 解决 方法 是 进一步 
Tf OpenMP 的 粗 粒 度 并 行 方法 。 


4.3 2.0 版 本 : RES 


在 该 版 本 中 ， 我 们 引入 了 OpenMP 的 粗 粒 度 并 行 方法 。 该 方法 在 计算 扩散 项 ( diffterm 
子 例 程 ) —€——— 1.0 版 本 和 2.0 版 本 的 源 代码 分 别 如 图 4-5 和 图 4-6 所 示 。 
图 中 的 代码 进行 了 精简 ， 只 保留 了 关注 的 重点 部 分 。 

在 该 方法 中 ， 计 算 区 域 分 解 为 多 个 子 区 域 ， 每 个 线程 负责 一 个 子 区 域 的 计算 。 每 个 线程 
调用 get threadbox 困 数 返回 当前 线程 的 子 区 域 的 上 限 和 下 限 。 现 在 的 diffterm 子 例 程 并 不 
包含 OpenMP 指令 ， 它 需要 定义 两 个 新 参数 标识 工作 区 域 。 该 优化 方法 在 diffterm 程序 中 有 
效果 ， 因 为 在 不 同 的 线程 子 区 域 中 的 般 套 循环 互 不 影响 。 

通过 扩大 并 行 区 域 (并 行 区 域 不 包含 共享 工作 结构 ) 和 改善 负载 均衡 的 优化 方法 ， 我们 
预期 应 用 程序 在 Intel Xeon Phi 处 理 器 和 Intel Xeon Phi 协 处 理 器 上 性 能 将 得 到 提升 。 如 图 4-7 
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所 示 ， 我 们 看 到 了 在 Intel Xeon Phi 处 理 器 的 运行 性 能 和 可 扩展 性 得 到 了 显著 提高 (1.0 版 本 
过 去 是 10 倍 的 性 能 加 速 比 ， 现 在 是 16 倍 )。 但 是 ， 如 图 4-8 所 示 ， 该 优化 方法 在 Intel Xeon 
Phi 协 处 理 右 上 运行 性 能 反而 下 降 了 。 我 们 使 用 VTune Amplifier 对 这 种 在 Intel Xeon Phi 协 
处 理 右 上 出 现 的 令 人 意外 的 运行 结果 进行 了 分 析 ， 分 析 结 果 如 图 4-9 所 示 。 我 们 发 现 了 程序 
中 的 vmlinux 模块 成 为 了 提升 性 能 的 瓶颈 。vmlinux 时 间 随 着 代码 中 多 个 动态 分 配 函 数 的 调用 
(比如 ，tmp 数组 是 上 述 示例 中 的 可 分 配 数组 ，diffterm 子 例 程 的 实际 代码 中 有 多 个 这 样 的 数 
组 ) 急速 增长 。 在 SMC 1.0 版 本 中 ，OMP PARALLEL 指令 是 在 调用 动态 分 配 函 数 之 后 执行 
的 。 而 在 SMC 2.0 版 本 中 ，OMP PARALLEL 指令 放 在 了 主 调 函 数 中 执行 ， 每 个 线程 的 子 区 
域 都 要 调用 diffterm 子 例 程 。 因 此 ，1.0 版 本 的 堆 分 配 操作 只 在 主线 程 中 执行 一 次 ， 而 2.0 版 
本 的 堆 分 配 操作 在 每 个 OpenMP 线程 中 都 要 执行 。 该 操作 在 Intel Xeon Phi 协 处 理 器 中 比 在 
Intel Xeon 处 理 需 中 对 性 能 影响 更 大 的 主要 原因 是 线程 的 数目 不 一 样 (前 者 是 后 者 的 5 倍 还 
多 )。 每 个 线程 调用 的 这 些 动态 内 存 分 配 函 数 导 致 了 vmlinux 时 间 急速 增长 进一步 约束 了 线程 
的 可 扩展 性 并 阻碍 了 我 们 试图 通过 在 协 处 理 器 上 进行 线程 盒 优 化 提升 性 能 的 途径 。 


call diffterm(U,dUdt,domlo,domhi) 


subroutine diffterm(U,dUdt,domlo,domhi) 
! domlo, domhi: lower and upper bounds 
! of the computational domain 
integer, intent(in) :: domlo(3), domhi (3) 


! U and dUdt are four-dimensional arrays. 

! The first three are for spatial dimensions, 

! whereas the fourth for variable components such 

! as density and velocity. 

! U has four ghost cells on each side. 

real, intent(in) :: U(domlo(1)-4:domhi(1)-44, 
domlo(2)-4:domhi (2)+4, 
domlo(3)-4:domhi (3)+4, 
nU) 


real, intent(inout) :: dUdt(domlo(1):domhi(1), 
domlo (2) :domhi (2), 
domlo (3) :domhi (3), 
nU) 


! tmp is a local array 
real, allocatable :: tmp(í(:,:,:) 


allocate(tmp (domlo(1)-4:domhi(1)-44, 
domlo (2)-4:domhi (2)+4, 
domlo (3)-4:domhi (3) +4) 


!$OMP PARALLEL PRIVATE(...) 


!SOMP DO COLLAPSE (2) 
do k = domlo(3)-4, domhi (3)+4 
do j = domlo(2)-4, domhi (2) +4 
do i = domlo(1)-4, domhi (1)+4 
tmp (i,j,k) = 
end do 
end do 
end do 
!SOMP END DO 


! lots of nested loops threaded with OMP DO ... 
!$OMP DO COLLAPSE (2) 


do k = domlo(3), domhi(3) 
do j = domlo(2), domhi (2) 


图 4-5 SMC 1.0 细 粒 度 并 行 代码 (不 是 全 部 代码 ,保留 重要 操作 的 简化 版 代码 ) 
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do i = domlo(1), domhi (1) 
dUdt(i,j,k,1) = 
end do 
end do 
end do 


!'$OMP END DO 


'SOMP END PARALLEL 
end subroutine diffterm 


图 4-5 (£A) 





'SOMP PARALLEL PRIVATE (lo,hi) 

call get threadbox(lo,hi) 

call diffterm(lo,hi,U,dUdt,domlo,domhi) 
! OMP END PARALLEL 


subroutine diffterm(lo,hi,U,dUdt,domlo,domhi) 
! lo, hi: lower and upper bounds of the assigned 
! sub-domain for this thread 
! domlo, domhi: lower and upper bounds of the 
! computational domain 
integer, intent(in) :: lo(3), hi(3) 
integer, intent(in) :: domlo(3), domhi(3) 


! U and dUdt are four-dimensional arrays. 
! The first three are for spatial dimensions, 
! whereas the fourth for variable components such 
! as density and velocity. 
! U has four ghost cells on each side. 
real, intent(in) :: U(domlo(1)-4:domhi(1)-*4, 
domlo (2) -4:domhi(2)+4, 
domlo (3) ~-4:domhi(3)+4, 
nU) 
real, intent(inout) :: dUdt(domlo(1):domhi(l1), 
domlo (2):domhi (2), 
domlo(3):domhi(3), 
nU) 


! tmp is a local array 
real, allocatable :: tmp(:,:,:) 


allocate( tmp(lo(1)-4:hi(1)+4, 
lo(2)-4:hi(2)+4, 
1lo(3)-4:hi(3)+4) ) 


do k = 1o(3)-4, hi(3)+4 
do j = lo(2)-4, hi(2)+4 
do i = lo(1)-4, hi(1)+4 
tmp (i,j,k) = 
end do 
end do 
end do 


! lots of nested loops without any OMP directives 


do k = 1o(3), hi(3) 
do j = 10o(2), hi(2) 
do i  lo[1), hi (tl) 
dUdt(i,j,k,1) = 
end do 
end do 
end do 
end subroutine diffterm 


[d 4-6 SMC 2.0 粗 粒度 并 行 代码 ,OpenMP 指令 从 diffterm 子 例 程 上 转移 到 调用 diffterm 
的 程序 上 (不 是 全 部 代码 ， 保 留 重 要 操作 的 简化 版 代码 ) 
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单 核 上 的 模拟 盒 大 小 为 12843 的 SMC 2.0 
在 Xeon 处 理 器 线程 上 的 可 扩展 性 
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图 4-7 SMC 2.0 版 本 粗 粒 度 并 行 代码 ， 处 理 器 上 OpenMP 线程 执行 性 能 和 线程 
可 扩展 性 得 到 提升 
单 核 上 的 模拟 盒 大 小 为 128^3 的 SMC 1.0 
在 XeonPhi 协 处 理 器 线程 上 的 可 扩展 性 
0.03 145 
T 0.025 | 40 
- 0 
i Tonnage" : à 
lica HY 
0.02 | Es 
E 上 3 
= bs S 
= 0.015 | gis 
i20 & 
= | * 
9 0.01 115 g 
= 110 
" 0.005 | 
1/ 时 间 —+— 45 
y 理想 的 可 扩展 性 一 * |o 
1 60 120 180 240 


线程 数 
图 4-8 SMC 2.0 版 本 粗 粒 度 并 行 代码 ， 协 处 理 器 上 OpenMP 线程 执行 性 能 和 线 
程 可 扩展 性 低 于 1.0 版 本 





图 4-9 SMC 2.0 版 本 (Intel Xeon Phi HEFE% )V Tune Amplifier XE 时 移 图 截图 。 
其 中 vmlinux (第 二 行 ) 与 图 4-4 相 比 成 为 热点 部 分 
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44 3.0 版 本 : RAG 


在 diffterm 子 例 程 中 有 许多 本 地 数组 。2.0 版 本 中 的 这 些 数组 动态 分 配 在 堆 中 。 这 些 分 
配 操作 是 线程 安全 的 但 通常 不 可 压缩 。 在 本 版 本 中 ， 我 们 转 回 使 用 固定 的 数组 而 不 是 动态 分 
配 的 数组 存储 这 些 局 部 变量 。 例 如 ， 上 一 节 的 示例 中 提 到 的 tmp 数组 改 为 : 


real ::tmp( lo(1)-4:hi(1)+4, 
lo(2)-4:hi(2)+4, 
lo(3)-4:hi(3)+4 ) 


这 里 需要 注意 的 一 点 是 ， 我 们 必须 确保 每 个 线程 有 一 个 足够 大 的 栈 内 存 空间 。 这 可 以 通 
过 “OMP STACKSIZE ”环境 变 量 设置 

图 4-10 和 图 4-11 展示 了 SMC 3.0 版 本 的 性 能 情况 。 在 Intel Xeon Phi PAbHHA E, dX 
们 得 到 了 难以 置信 的 性 能 和 可 扩展 性 提升 (该 版 本 获得 约 70 倍 性 能 加 速 比 ，1.0 版 本 的 约 
J 38 4%). Xeon 处 理 器 上 的 性 能 和 可 扩展 性 也 有 些许 提高 。 但 是 ,我 们 磁 到 了 男 一 个 问题 。 
当 应 用 程序 在 小 规模 线程 上 运行 时 需要 设置 OMP_ STACKSIZE 数组 非常 大 ， 这 对 于 一 些 分 
块 类 型 的 优化 是 件 令 人 痛 吉 的 事情 。 


单 核 上 的 模拟 盒 大 小 为 128^3 的 SMC 3.0 
在 XeonPhi 协 处 理 器 线程 上 的 可 扩展 性 
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图 4-10 SMC 3.0 版 本 : Intel Xeon Phi 协 处 理 需 线程 可 扩展 性 ， 使 用 代替 动态 分 配 数 组 的 固定 大 小 数 
组 极 大 地 提升 了 SMC 使 用 线程 盒 的 性 能 和 可 扩展 性 


4.5 4.0 版 本 : 分 块 


当 使 用 线程 的 数目 比较 少时 ，3.0 版 本 对 于 每 个 线程 需要 设置 一 个 较 大 的 栈 内 存 空间 。 
为 了 减少 这 种 堆栈 空间 大 小 的 约束 ， 我 们 将 每 个 线程 的 子 区 域 进一步 划分 为 更 小 的 块 。 块 
的 大 小 可 以 在 运行 时 系统 参数 文件 inputs SMC 文件 中 设置 。 对 分 块 区 域 进行 循环 操作 时 
调用 diffterm 例 程 (如 图 4-12 所 示 )。 使 用 块 的 另 一 个 优点 是 能 够 减少 工作 集 大 小 ， 从 而 得 
到 更 好 的 缓存 性 能 。 在 这 里 需要 注意 的 是 ， 这 对 于 线程 子 区 域 在 进行 分 块 之 前 比 目 标 块 还 





小 的 情况 无 效 。 
单 核 上 的 模拟 盒 大 小 为 128^3 的 SMC 3.0 
在 Xeon 处 理 器 线程 上 的 可 扩展 性 
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4-11 SMC 3.0 版 本 : 处 理 器 线程 可 扩展 性 与 2.0 版 本 在 Intel Xeon Phi 处 理 器 
上 相 比 只 有 轻微 的 性 能 提升 


Version 3.0: 

!SOMP PARALLEL PRIVATE (Lo ,hi) 

call get threadbox(1lo,hi) 

call diffterm(lo,hi,U,dUdt,domlo,domhi) 
'SOMP END PARALLEL 


Version 4.0: 


'SOMP PARALLEL PRIVATE(lo,hi,iblock,nblocks) 
nblocks = tb get nblocks() 
do iblock - 1, nblocks 

call get threadbox(lo,hi,iblock) 

call diffterm(lo,hi,U,dUdt,domlo,domhi) 
end do 


!$OMP END PARALLEL 





图 4-12 SMC 4.0 版 本 : 将 从 2.0 版 本 中 引入 的 get. threadbox 操作 中 的 子 区域 划 
分 为 更 小 的 块 


图 4-13 和 图 4-14 展示 了 分 块 优 化 后 SMC 的 可 扩展 性 。 这 里 并 没有 非常 大 的 差别 。 一 
部 分 实验 结果 变 得 更 差 ， 其 中 包括 影响 扩展 规模 (从 70 倍 到 100 倍 ) 的 单线 程 结果 ,但 是 
峰值 性 能 仍然 是 一 样 的。 虽然 一 些 实验 结果 会 变 差 ， 但 是 我 们 仍然 保持 这 种 变化 ， 因 为 在 使 
用 小 规模 线程 或 大 型 化 学 网 络 计算 时 能 够 降低 栈 空间 大 小 的 限制 。 


4.6 5.0 版 本 : 向 量化 


充分 发 挥 诸如 Intel Xeon Phi 协 处 理 器 之 类 的 众 核 架构 性 能 的 关键 因素 是 使 用 SIMD 指 
令 。 在 当前 的 SMC 简化 版 本 中 ， 化 学 反应 速率 计算 相对 简单 ， 因 为 使 用 只 有 9 种 物质 参与 
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的 一 个 网 络 即 可 。 然 而 ， 对 于 包含 数 百 种 物质 的 多 个 网 络 的 计算 ， 优 化 反应 速率 的 时 间 开 销 
非常 重要 。 这 是 因为 随 着 参与 物质 的 种 类 数 增加 反应 速率 的 计算 开销 比 扩散 项 的 计算 开销 增 
长 更 快 。 这 里 提出 了 一 种 使 反应 速率 计算 更 加 向 量化 的 方法 。 


单 核 上 的 模拟 盒 大 小 为 128^3 的 SMC 4.0 
在 Xeon Phi 协 处 理 器 线程 上 的 可 扩展 性 
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0.04F 


0.03 


0.02f; 


1/ (SMC 推进 时 间 )( 1/5); ( 越 高 越 好 ) 
相 比 单线 程 的 性 能 加 速 比 
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1/ 时 间 a2 
理想 的 可 扩展 性 一 x 一 
1 60 120 180 240 
线程 数 
图 4-13 SMC 4.0 版 本 : 分 块 后 的 协 处 理 器 线程 可 扩展 性 (inputs_SMC 文件 设置 的 参数 为 负 1、4、5 )。 


图 中 一 些 点 的 性 能 有 小 幅度 下 降 ， 但 240 个 线程 的 性 能 与 3.0 版 本 基本 一 样 


单 核 上 的 模拟 盒 大 小 为 128^3 的 SMCA.0 
在 Xeon 处 理 器 线程 上 的 可 扩展 性 


1/ (SMC 推进 时 间 )( 1/s); ( 越 高 越 好 ) 
相 比 单线 程 的 性 能 加 速 比 


1/ 时 间 一 + 一 
3 理想 的 可 扩展 性 一 x 一 
1 12 24 36 48 





图 4-14 SMC 4.0 版 本 : 分 块 后 的 处 理 器 线程 可 扩展 性 (inputs SMC 文件 设置 的 参数 
为 -1、16、16 ) 。 图 中 24 个 线程 的 实验 数据 与 3.0 版 本 的 一 样 ， 但 是 48 个 线 
程 的 性 能 有 所 下 降 
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原始 版 本 的 化 学 反应 速率 计算 如 图 4-15 所 示 。 其 中 的 内 部 循环 包含 了 ckwyr 子 例 程 的 
调用 ， 该 子 例 程 非常 复杂 且 难 以 与 其 他 程序 内 联 。 如 图 4-16 所 示 ，ckwyr 子 例 程 在 单个 点 
上 执行 。 它 以 密度 、 温 度 和 质量 分 数 为 输入 参数 ， 返 回 各 个 物质 的 摩尔 产 率 。 最 终 的 结果 存 
储 在 一 个 四 维 数组 中 。 由 于 ckwyr 在 一 个 不 能 内 联 的 内 部 循环 中 执行 且 ckwyr 子 例 程 同一 时 
刻 只 能 处 理 一 个 单元 格 ， 因 此 难以 实现 向 量化 。 


Original computation of Chemical Reaction Rates: 
do k-1o(3),hi(3) 


do j=lo(2),hi(2) 
do i-lo(1),hi(1) 
! mass fraction 
Yt = q(i,j,k,qyl:qyl+nspecies-1) 


call ckwyr(q(i,j,k,qrho), 
q(i,j,k,qtemp), Yt, wdot) 
up(i,j,k,iryl:iryl*nspecies-1) = wdot 
* molecular weight 
end do 
end do 
end do 


图 4-15. SMC 4.0 版 本 : 不 能 向量 化 的 原始 化 学 反应 速率 计算 代码 





3.547e+15*exp (-0.406*T- 

8352 .8934356925419706*invT) ; 

50800.0*exp(2.67*T- 

3165.2328279116868543*invT) ; 
= 2.16e+08*exp (1.51*T- 

1726.0331637101885462*invT) ; 


6.165et*15*exp(-0.5*T); 


1.66e+13*exp (- 
414.14731595728432012*invT) ; 


3.25e+13; 


5.8e+14*exp (- 
4809.2416750957054319*invT); 





图 4-16 SMC 4.0 版 本 : 原始 的 ckwyr 函数 代码 ， 同 一 时 间 只 能 计算 一 个 点 


for (int i-0; i«np; i++) { 

k f[0][i] = 3.547e*15*exp(-0.406*T[i]- 
8352.8934356925419706*invT[i]); 
50800.0*exp(2.67*T[i]- 
3165.2328279116868543*invT[i]); 
2.16e-08*exp(1.51*T[i]- 
1726.0331637101885462*invT[i]); 


k £[5] [i] 6,165e*15*exp(-0.5*T[i]); 

/ / 

k £[9] [i] 1.66e+13*exp (- 
414.14731595728432012*invT[i]); 


3.25e+13; 


5.8e+14*exp (- 
4809.2416750957054319*invT[il); 





图 4-17. SMC 5.0 版 本 : 修改 后 可 向 量化 的 化 学 反应 速率 计算 代码 
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为 了 实现 化 学 反应 速率 计算 的 向 量化 ， 我 们 需要 修改 ckwyr 子 例 程 ， 将 它 的 密度 
PIE], eio rn emis 人 roig 
需要 修改 函数 调用 代码 来 生成 输入 向 量 Y t 并 使 用 ckwyr 的 输出 向 量 wdot， 如 图 4-18 所 示 。 
这 种 改进 方法 使 得 化 学 反应 部 分 在 协 处 理 右 上 获得 了 4 倍 的 性 能 加 速 比 。 

除了 对 化 学 反应 部 分 进行 向 量化 之 外 ，Fortran 语言 的 SIMD 指令 用 来 处 理 diffterm 中 
的 多 组 内 部 循环 。 编 译 器 在 这 里 不 会 选择 向量 化 ， 因 为 它们 之 间 有 潜在 的 依赖 关系 ， 程 序 的 
正确 性 由 编译 需 来 保证 。 

图 4-19 和 图 4-20 展示 了 SMC 回 量 化 优化 后 的 性 能 和 可 扩展 性 。 


Optimized computation of Chemical Reaction Rates: 
np = hi(1) = 1o(1) +1 


do k-10o(3),hi(3) 
do j-10(2),hi(2) 


do n-1, nspecies 
do i-lo(1),hi(1) 
Yt(i,n) = q(i,j,k,qyl*n-1) 
end do 
end do 


call ckwyr(np, q(lo(l):hi(1),Jj,k,qrho), 
q(1o(1):hi(1),j,k,qtemp), 
Yt, wdot) 
do n-1, nspecies 
do i=lo(1),hi(1) 
üp(l,j,k,lryltn-1) = wdotí(i,n) * 
molecular weight (n) 
end do 
end do 


end do 
end do 


K| 4-18 SMC 5.0 版 本 : 修改 后 可 向 量化 的 化 学 反应 速率 计算 代码 


单 核 上 的 模拟 盒 大 小 为 128^3 的 SMC5.0 
在 Xeon Phi 协 处 理 器 线程 上 的 右 扩 展 性 





1/ (SMC 推进 时 间 )( 1/s); ( 越 高 越 好 ) 
相 比 单线 程 的 性 能 加 速 比 


| 理想 的 可 扩展 性 一 x 一 
1 60 120 180 240 





线程 数 
图 4-19 SMC 5.0 版 本 : 问 量 化 优化 后 协 处 理 需 线程 可 扩展 性 
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单 核 上 的 模拟 盒 大 小 为 12843 的 SMC5.0 
在 Xeon 处 理 器 线程 上 的 右 扩 展 性 
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图 4-20 SMC 5.0 版 本 : 回 量 化 优化 后 协 处 理 需 线程 可 扩展 性 


注意 ， 如 图 4-19 所 示 ， 在 Intel Xeon Phi 协 处 理 器 上 最 好 性 能 是 12.99s。 最 近 我 们 发 现 
了 一 些 Fortran 语言 上 的 编译 优化 项 可 以 让 我 们 在 协 处 理 器 上 达到 9.11s (与 图 4-19 相 比 提升 
了 1.43 倍 )， 并 且 在 处 理 硕 上 保持 相同 的 性 能 。 提 升 性 能 的 编译 优化 项 是 -fno-alias-no-prec- 
div-no-prec-sqrt-fimf-precision-low-fimf-domain-exclusion-15-align array64byte-opt-assume- 


safe-padding-opt-streaming-stores always-opt-streaming-cache-evict-0 ; 


4.7 Intel Xeon Phi 协 处 理 器 上 的 运行 结果 


我 们 的 优化 方法 在 Intel Xeon Phi Bb 3l 28 fll Intel Xeon Phi 处 理 顺 均 使 性 能 得 到 了 提 
升 。 当 我 们 使 用 相同 的 编程 技术 时 ， 同 时 提升 了 应 用 程序 的 性 能 和 可 扩展 性 。 应 用 程序 在 
Intel Xeon Phi 协 处 理 器 上 表现 的 可 扩展 性 相 比 单 线程 的 从 38 倍 提 升 到 100 倍 ， 且 性 能 也 提 
HT 1 倍 多 。 在 处 理 器 上 表现 的 可 扩展 性 从 10 倍 提升 到 了 16 倍 ， 人 性 能 也 提升 了 近 1 fi. 

图 4-21 表示 的 是 最 终 的 VTune Amplifier 汇 总 OpenMP 性 能 快照 。 在 OpenMP 分 析 部 
分 ， 潜 在 可 提升 的 时 间 和 串 行 时 间 都 有 大 幅度 减少 。 串 行 时 间 中 的 初始 化 时 间 无 法 被 优化 且 
不 是 SMC 性 能 判断 的 一 部 分 ; 在 中 间 部 分 ， 我 们 的 优化 方法 在 CPU 使 用 率直 方 图 上 实现 
了 并 发 ; RA, HHA libiompS.so 模块 时 间 明 显 降低 。 该 工作 负载 的 并 发 性 得 到 了 显著 
提高 。 

仅 在 性 能 方面 ， 优 化 后 的 Intel Xeon Phi 处 理 需 性 能 比 优 化 后 的 Intel Xeon Phi 协 处 理 
器 性 能 好 。 我 们 的 优化 工作 与 基本 版 本 1.0 相 比 无 论 在 处 理 需 上 还 是 协 处 理 器 上 都 表现 出 更 
好 的 性 能 。 此 外 ， 我 们 对 当前 的 编程 技术 进行 了 优化 ， 使 得 应 用 程序 可 扩展 到 更 多 的 节点 上 
运行 。 

当 我 们 将 应 用 程序 移植 到 下 一 代 Xeon Phi (代号 为 KNL) 时 ， 我 们 期 望 能 获得 更 进 一 
步 的 性 能 提升 。Intel 对 于 多 核 和 众 核 处 理 器 使 用 的 共享 编程 模型 、 编 程 语言 和 开发 工具 都 能 
使 我 们 的 优化 工作 受益 ， 因 为 我 们 对 于 当前 的 KNL 的 优化 工作 兼容 了 协 处 理 器 和 KNL 处 
FH as ee 
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OpenMP Analysis. pp gen Elapsed Time: 21.776 
Serial Time (outside any parallel TA j 
Seal Tane of your appicanion s hg t drectiy mpacts appication Elapsed Tene and scalabiity. Explore options for parallelization, algorithm or 
microarchitecture tuning of the serial part of the apphcation 
@ Parallel Region Spend Time: 14.2608 (65.6%) 
11.5815 (53.2%) 
2.6995 (12.4%) 


® CPU Usage Histogram 
This histogram displays a percentage of the wall time the specific number of CPUs were running simultaneously. Spin and Overhead time adds to 
the idle CPU usage value. 
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图 4-21 SMC 5.0 版 本 (Intel Xeon Phi 协 处 理 器 ): VTune Amplifier XE 三 个 不 同 部 分 的 性 能 分 析 截 图 : 
OpenMP Analysis, CPU Usage Histogram 和 时 移 图 。 表 明了 相 比 SMC 1.0 版 本 (图 4-4) 性 
能 有 较 高 的 提升 
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现 如 今 Intel 处 理 硕 和 协 处 理 需 在 每 个 节点 上 出 现 越 来 越 多 的 内 核 和 硬件 线程 。 而 且 这 
种 内 核 数 和 线程 数 不 断 增长 的 趋势 在 未 来 的 处 理 器 中 不 会 下 降 。 要 充分 利用 这 些 并 行 硬 件 环 
境 ， 集 群 混合 架构 的 程序 开发 人 员 需 要 分 析 和 优化 并 行 编程 的 实现 。 这 个 案例 研究 讨论 了 可 
提高 并 发 性 的 一 些 方法 。 其 中 包括 如 何 分 析 和 追踪 应 用 程序 的 性 能 和 可 扩展 性 ， 帮 助 我 们 分 
Pr OpenMP 性 能 及 OpenMP 的 工具 和 向 量化 优化 技术 。 

对 于 分 析 和 追踪 性 能 ， 我 们 使 用 了 一 个 带 有 两 个 y 轴 坐标 (一 个 描述 的 是 性 能 ， 男 一 
描述 相对 于 单线 程 的 性 能 加 速 比 ) 的 OpenMP 线程 扩展 性 图 。 这 一 个 图 给 我 们 提供 了 许多 分 
析 功 能 : 版 本 间 和 平台 间 的 性 能 对 比 ， 线 程 可 扩展 性 改进 的 量化 分 析 ， 以 及 每 个 线程 粒度 上 
的 改进 分 析 。 

对 于 工具 ， 我 们 使 用 的 是 带 有 OpenMP 分析 功能 的 VTune Amplifier XE 2015 工具 。 
VTune Amplifier 中 的 OpenMP 分 析 功 能 提供 了 程序 优化 后 的 潜在 可 提升 性 能 空间 ， 说 明了 
如 何 高 效 使 用 逻辑 CPU 以 及 当前 在 CPU 上 实际 运行 的 程序 内 容 。 这 些 功能 与 传统 的 热点 分 
析 功 能 相 结 合 提 升 『 VTune Amplifier 工具 在 分 析 和 优化 并 行 应 用 程序 方面 的 能 力 。 

我 们 主要 做 了 四 个 方面 的 优化 工作 。 

1) RHE: 为 了 优化 原始 版 本 中 的 在 循环 层 上 的 OpenMP 细 粒 度 并 行 性 ， 创 建 一 个 粗 
粒度 并 行 方法 。 

2) 栈 空间 分 配 : 线程 盒 优化 出 现 了 主 我 们 无 法 预料 的 副作用 。 我 们 通过 在 栈 空 间 上 分 
配 数据 的 方法 弥补 了 这 个 缺陷 。 
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3) 分 块 : 栈 空间 分 配 在 小 规模 线程 上 出 现 了 问题 。 采 用 分 块 的 方法 能 够 使 我 们 使 用 较 
小 的 栈 空间 ， 尤 其 是 在 小 规模 线程 上 。 

4) 向 量化 : 转换 为 可 向 量化 的 化 学 反应 速率 计算 方法 ， 同 时 使 用 Fortran 语言 的 SIMD 
指令 回 量化 多 重 diffterm 循环 。 

这 些 优化 方法 在 Intel Xeon 处 理 器 上 和 Intel Xeon Phi 协 处 理 器 上 都 显著 提升 了 应 用 程 
序 的 并 发 性 。 协 处 理 硕 的 240 个 线程 与 单线 程 的 OpenMP 线程 扩展 加 速 比 达 到 了 100 倍 ， 
而 1.0 版 本 的 加 速 比 是 38 倍 。 处 理 需 的 48 个 线程 与 单线 程 的 OpenMP 线程 扩展 加 速 比 达到 
了 16 倍 ， 而 1.0 版 本 的 是 10 倍 。 


4.9 更 多 信息 


SMC 名 字 的 起 源 于 哪里 ? SMC 不 是 一 个 首 字 母 缩 略 词 。 它 是 由 一 个 天 文物 理学 家 命 
名 的 。CCSE 有 一 个 低 马赫 数 燃烧 代码 (RA LMC). LMC 也 可 以 表示 银河 系 的 一 个 卫星 
星系 一 一 大 麦哲伦 云 星系 。 大 麦哲伦 云 星 系 有 个 小 的 兄弟 星系 称 为 小 麦哲伦 云 星 系 (SMC), 
所 以 ，SMC 燃烧 代码 也 像 是 LMC 代码 的 兄弟 代码 。 

下 面 列举 了 本 革 推 荐 的 一 些 额 外 的 阅读 材料 : 

e BoxLib 软件 框架 : https://ccse.lbl.gov/BoxLib/。 

e Emmetta, M., Zhang, W., Bell, J.B., 2014. High-order algorithms for compressible 
reacting flowwith complex chemistry. Combust. Theor. Model. 18(3) (http://arxiv.org/ 
abs/1309.7327). 

e 本 章 使 用 的 SMC 简化 版 本 : https://github.com/WeiqunZhang/miniSMC., 

e Intel Xeon Phi 协 处 理 器 7120P (代号 为 Knights Corner) 详情 : http://ark.intel.com/ 
products/75799/Intel-Xeon-Phi-Coprocessor-7120P-16GB-1 238-GHz-61-core. 

e Intel Xeon CPU E5-2697 v2 (代号 为 IvyBridge-EP) 详情 : http://ark.intel.com/products/ 

75283/Intel-Xeon-Processor-E5-2697-v2-30M-Cache-2 70-GHz?wapkw-eS5-2697 . 
Intel VTune Amplifier XE: https://software.intel.com/en-us/intel-vtune-amplifier-xe. 
Unat, D., Chan, C., Zhang, W., Bell, J., Shalf, J., 2013. Tiling as a durable abstraction 


forparallelism and data locality. In: Workshop on Domain-Specific Languages and 


High-LevelFrameworks for HPC (http://sc13.supercomputing.org/sites/default/files/ 
WorkshopsArchive/pdfs/wp118s1.pdf). 
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High Performance Parallelism Pearls: Multicore and Many-core Programming Approaches 


分 阶段 准 同步 栅栏 
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在 电信 系统 中 ， 准 同步 系统 是 指 系统 中 不 同 部 分 间 相 差 不 大 ,但 是 并 非 完全 同步 。 在 
许多 大 规模 线程 应 用 中 ， 同 步 线 程 池 栅栏 中 的 所 有 线程 将 消耗 大 量 的 处 理 时 间 。 在 适当 的 时 
机 ， 通 过 调整 应 用 中 的 松散 同步 (分 阶段 准 同步 ) 栅栏 而 不 是 严格 同步 ， 能 够 减少 之 前 丢失 
的 线程 栅栏 的 一 大 部 分 等 待 时 间 。 本 章 将 这 些 技术 应 用 到 一 个 示例 应 用 程序 中 。 该 应 用 程序 
在 由 Morgan Kaufman 出 版 社 出 版 并 且 由 Jim Jeffers 和 James Reinders 编写 的 2013 版 《Intel 
Xeon Phi Coprocessor High-Performance Programming )( HPP) 书 中 的 第 4 章 提 到 。 

在 我 们 描述 分 阶段 准 同 步 栅栏 的 详细 使 用 之 前 ， 首 先 对 该 应 用 程序 例子 的 一 些 基础 版 
本 的 优化 代码 进行 闻 述 。 介 绍 基本 优化 后 ， 讨 论 分 阶段 准 同 步 棚 栏 的 用 法 和 优点 ， 从 而 融合 
所 有 技术 层面 使 应 用 程序 在 性 能 方面 有 巨大 的 提升 。 本 章 旨 在 为 读者 提供 一 个 完整 的 学 习 经 
验 。 探 索 的 过 程 是 最 重要 的 ,探索 到 最 后 你 将 成 为 一 个 更 加 优秀 的 程序 员 。 

需要 注意 的 是 ,本章 介 绍 的 编程 优化 方法 同样 也 适用 于 可 编程 的 处 理 器 。 有 关 主 机 处 理 
露 的 优势 将 在 本 章 的 结尾 部 分 进行 讨论 。 

本 章 中 系统 所 选用 的 运行 时 数据 与 HPP 这 本 书 中 使 用 的 略 有 不 同 。 主 机 系统 是 一 个 采 
用 X79 芯片 组 主板 且 拥 有 一 个 Intel Xeon E5-2620 处 理 器 的 工作 站 。 此 外 我 们 还 在 其 上 安装 
了 两 个 Intel Xeon Phi 5110P 协 处 理 右 ， 但 是 我 们 只 使 用 了 其 中 一 个 。HPP 书 中 的 示例 运行 
在 61 核 协 处 理 器 上 ， 而 本 书 中 修改 后 的 代码 运行 在 60 核 协 处 理 器 上 上。 因此， 本 书 中 的 测试 
和 HPP 书 中 使 用 的 线程 数 和 处 理 需 核 数 略 有 差异 。 

这 里 不 再 重复 HPP 书 中 第 4 章 的 内 容 ， 而 第 4 章 的 结尾 将 作为 本 章 的 开始 。 正 在 进行 
的 项 目 模拟 了 在 立方 体 等 3D 容器 中 的 溶质 扩散 过 程 。 无 论 是 原始 代码 还 是 我 们 修改 后 的 代 
码 都 可 以 在 http://www.lotsofcores.com 网 站 上 进行 下 载 。 虽 然 本 章 的 内 容 是 假定 在 单 协 处 理 
髓 环境 下 编写 的 ， 但 是 我 们 所 使 用 的 示例 应 用 程序 在 单 处理 器 上 也 可 以 编译 、 运 行 。 

我 们 使 用 了 其 他 章 结尾 的 运行 结果 数据 〈 如 图 5-1 所 示 )。 该 图 是 在 60 核 协 处 理 器 上 使 
用 了 新 测试 系统 的 实验 结果 图 ， 是 HPP 书 中 图 例 的 更 新 版 本 。 图 中 的 数据 表示 程序 三 次 运 
行 结果 的 平均 值 。 目 的 是 消除 操作 系统 波动 的 影响 。 

注意 ， 图 中 的 数字 表示 的 是 优化 后 版 本 程序 的 每 秒 百 万 次 浮 点 数 运 算 结 果 与 单线 程 基 
础 版 本 程序 的 每 秒 百 万 次 浮 点 数 运算 结果 的 比率 。 此 外 ， 该 图 不 是 一 个 随处 理 器 的 线程 数 或 
内 核 数 改变 的 可 扩展 图 ， 而 是 一 个 不 同 优化 程序 充分 利用 协 处 理 右 的 计算 能 力 的 性 能 优势 对 
比 图 。 

图 5-1 说 明了 优化 进程 取得 的 进展 ， 

e 使 用 正确 的 算法 

base 单线 程 版 本 程序 
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扩散 部 分 代码 相对 于 基础 版 本 的 性 能 加 速 比 
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图 5-1 Xeon Phi 5110P 处 理 器 上 的 相对 性 能 提升 
e 介绍 并 行 代码 


omp 并 行程 序 简化 版 本 

e 进一步 回 量 化 〈 可 与 添加 并 行 代码 互 换 ) 

ompvect 增加 SIMD 向 量化 指令 

e 移 除 不 相关 代码 〈 提 高 效率 ) 

peel 从 内 部 循环 中 移 除 不 相关 代码 

e 提高 缓存 命中 率 

tiled 对 任务 进行 划分 以 提高 缓存 命中 率 


完成 前 面 所 述 的 优化 过 程 之 后 ， 如 果 你 没有 忽略 特别 重要 的 地 方 ， 那 么 程序 已 经 没有 多 
少 地 方 需 要 改进 了 。 

在 前 面 提 到 的 书 中 ， 作 者 在 章节 最 后 认为 可 以 通过 不 断 的 努力 获得 额外 的 性 能 提升 ， 即 
使 经 验 丰富 的 并 行 编程 程序 员 认 为 除了 已 调整 内 容 外 没有 太 大 可 能 做 进一步 优化 。 

在 列 出 代码 改变 前 ， 强 调 对 协 处 理 器 赋予 更 高 的 并 行 优化 关注 是 非常 重要 的 。 这 也 就 意 
味 着 不 会 使 用 一 个 协 处 理 器 运行 一 个 单线 程 应 用 程序 。 因 此 ， 更 清晰 的 图 表 对 比如 图 5-2 所 
示 。 图 中 的 横 坐 标 表示 相对 简单 OpenMP 并 行 版 本 的 性 能 加 速 比 对 比 情况 ，OpenMP 版 本 在 
图 中 用 omp 表示 。 


扩散 部 分 代码 相对 于 omp 版 本 的 性 能 相 加 速 比 


O — NC 0o] - c 





omp ompvect peel 


图 5-2 基于 OpenMP 的 性 能 对 比 
图 5-2 明确 表明 了 我 们 可 以 从 HPP 书 中 第 4 章 中 得 到 如 下 优化 建议 。 下 面 讨论 接 下 来 
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能 做 些 什么 。 

首先 ， 做 一 些小 范围 的 代码 修改 更 容易 运行 上 述 测试 。 所 有 的 改变 不 会 影响 代码 的 意图 
或 性 能 测试 情况 。 第 一 个 改变 是 允许 在 C++ 编译 器 命令 行 上 增加 一 个 -DNX=nnn 的 编译 选 
项 来 定义 NX 宏 。 这 个 宏 定义 用 来 表示 指定 的 立方 体 大 小 : nx=NX, ny=NX，nz=NX， 即 设 
置 问题 的 规模 。 当 这 个 宏 没 有 在 编译 器 命令 行 选项 中 给 出 时 ， 将 会 使 用 默认 值 256 KRE, 
—H NX 宏 在 命令 行 定 义 ， 那么 这 个 命令 行 值 将 被 使 用 。 这 样 做 的 目的 是 使 Makefile 文件 
不 需要 修改 源 代 码 即 可 创建 一 个 256 x 256 x 256 的 小 数组 模型 和 一 个 512 x 512 x 512 的 大 
数组 模型 。 

本 书 中 tiled 代码 的 计算 部 分 如 图 5-3 所 示 。 


#pragma omp parallel 
{ 
REAL *f1 t Lil; 
REAL *f2 t £2; 
int mythread; 
for (int i = 0; i « count; +41) ( 
#define YBF 16 
#pragma omp for collapse(2) 
for (int yy = 0; yy < ny; yy += YBF) { 
for (int z= 0; z « nz; z+) { 
int ymax = yy + YBF; 
if (ymax »- ny) ymax - ny; 
for (int y = yy; y < ymax; y++) { 
x; 


Py Dn. B, Bsa f 


y * NXP + Z * NXP * ny; 
0) ? - NXP; 


C 
ny-1) ? oc : + NXP; 
e 


0) ? - NXP * ny; 
nz-1) VG: * NXP * ny; 
ee * rl tle] 
= fi clo] 
= fi bleri] 
* f1 tis] 
= Ei cnl 
* fi til 
= fX Eels 
#pragma simd 
for (x = 1; x < nx-1; x++) { 
++C; tn; ++S; ++b; +4+t; 
f2 t[c] = cc fl t[c] 
* CW fl t[c-1] 
* ce f1 t[c*1] 
* cS EL cmm 
+ cn El t[n] 
+ cb £1 cI5] 
+ Gt LI A DEI3 
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B 
tA 
bi 


++C; ++n; ++S; ++b; ++t; 
£2 ble] si ee * £1. ele] 


+ cw * £1 t[c-1] 
+ ce * f1 t[c] 


+ Gs * El t[s] 
* en * £1 tin] 
+ ob * £1 t[b] 
+ ct * £1 tlt]; 
} // tile ny 
} // tile nz 

} // block ny 

REAL *t = f1 t; 

DPI t = I2 bi 

Tz t = t 

) // count 
) // parallel 





图 5-3 (5x) 


5.1 如 何 改善 代码 

计算 密集 性 循环 包含 几 个 整数 递增 的 单 浮 点 数 运算 。 使 用 -03 的 编译 器 优化 选项 将 展 
开 循环 并 减少 测试 次 数 (x<nx-1)， 还 可 以 通过 使 用 偏 移 量 减少 ++ 操作 的 次 数 。 更 重要 的 
是 ， 编 译 句 会 对 该 循环 进行 各 量化 操作 。 

该 循环 将 执行 工 维 〈 小 规模 情况 下 是 254) 的 nx-2 需 次 。 而 在 展开 之 前 和 之 后 循环 将 执行 
P FÉ x (x=0 H x=nx-1) 平方 次 。 当 NX=256 时 ， 内 部 循环 将 占 到 总 任务 的 254/256-99.2295., 

编译 器 在 插入 预 取 的 时 机 和 地 方 上 面 做 得 非常 好 。 可 以 通过 反 汇 编 (通过 -s compiler 
switch) 查看 。 我 尝试 通过 使 用 不 同 的 如 ragma prefetch 选项 却 得 到 比 编译 器 自动 预 取 
更 低 的 性 能 。 出 于 好 奇 ， 我 也 在 本 应 用 程序 中 使 用 加 ragma no-prefetch 选项 ， 得 到 了 非 
党 小 的 性 能 提升 (<1%)。 这 个 可 能 是 由 于 测试 用 例 中 的 循环 相对 比较 简单 ， 处 理 器 的 硬件 预 取 
人 能够 为 该 用 例 提 供 预 取 。 在 每 次 循环 中 消除 不 必要 的 预 取 指令 可 以 获得 至 少 一 个 时 钟 周期 。 

HPP 书 中 指出 最 优 性 能 通过 使 用 KMP AFFINITY-scatter 和 OMP NUM THREADS=183 
选项 (每 个 处 理 需 使 用 3 个 线程 ) 获得 。 在 180 个 线程 的 测试 机 上 (人 少 于 一 个 内 核 )， 使 用 分 
Hk (YBF = 16) 提高 缓存 命中 率 ， 并 且 我 们 假设 书 中 作者 通过 调整 这 些 因 素 获 得 了 最 佳 的 
性 能 。 


5.2 如何 进一步 改善 代码 

通过 分 析 我 们 进一步 发 现 了 代码 中 存在 的 问题 。 在 阅读 代码 以 及 将 它 与 那些 由 多 个 有 
序 的 具有 四 个 硬件 线程 的 内 核 构成 的 协 处 理 器 计算 特性 相关 联 时 ， 这 些 问题 并 不 明显 。HPP 
书 的 作者 发 现 每 个 核 使 用 四 硬件 线程 中 的 三 个 线程 可 以 得 到 最 佳 性 能 (对 于 这 个 应 用 程序 )。 
在 目标 系统 上 运行 结果 显示 得 到 了 最 好 的 数据 。 

第 一 个 未 在 HPP 书 中 使 用 的 优化 涉及 每 个 内 核 中 线程 的 Ll 和 L2 关系 。 下 一 小 节 将 介 
绍 如 何 利 用 这 种 关系 。 


5.3 BABAK 
方 阵 这 个 术语 是 从 古 希腊 人 和 十 罗马 军队 的 队列 派生 出 来 的 。 军 队 中 的 士兵 站 位 是 横向 
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肩 并 着 肩 ， 纵 向 盾 挨 着 盾 。 这 种 方 阵 往 前 推进 形成 “一 种 不 可 抗拒 的 力量 ”。 这 里 所 使 用 的 
超 线程 方 阵 术语 是 指 在 一 个 内 核 中 的 各 超 线程 间 紧 密 相连 并 向 前 推进 。 

由 于 HPP 作者 在 书籍 出 版 截止 日 期 前 还 要 编写 、 测 试 、 修 改编 程 示 例 并 将 其 插入 到 书 
稿 中 ， 因 此 没有 在 该 书 中 讨论 这 种 方法 。 但 是 ， 作 者 标注 了 更 多 的 优化 方法 是 可 能 的 ， 所 以 
我 们 将 探讨 这 些 改进 方法 。 

第 一 种 优化 技术 是 将 每 个 内 核 内 的 硬件 线程 
压缩 进 一 个 紧 耦 合 的 工作 单元 ( 方 阵 ) 中 ， 因 此 
提高 了 L1 L2 的 缓存 命中 率 。 在 HPP 书 的 代码 
中 ， 每 个 线程 负责 三 维 问题 空间 的 不 同 部 分 。 从 X 
Ais] BA (EIA ZY 平面 )， 每 个 线程 的 LI1 A L2 
负责 处 理 X 轴 每 一 列 方向 的 缓存 命中 ， 如 图 5-4 
所 示 。 


LZ 
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图 s-4 中 的 左 侧 图 像 表 示 从 又 往 下 看 的 ZIY aaea 
平面 视角 。 图 全 说明 数据 有 可 能 驻 留 在 一 些 缓存 [eae 
E ^ E Wl te | 部 分 在 缓存 中 热 缓存 向 下 运动 X 
由。 在 第 一 次 的 X SIUTEDR Dr FUE rh Tac FL n AR 


表现 出 局 部 的 缓存 命中 。 当 计算 到 x=nx-1 AY, c 
列 就 有 三 个 输入 (ce+l, cy c-1)。 当 c+l BAK Ed iain 
仔 进行 读 取 时 ，c 和 c-1 也 会 在 缓存 中 等 待 被 使 用 。 循 环 结束 后 ，c,n,s,t,b 这 5 列 都 会 出 
现在 Ll 或 L2 缓存 中 (就 像 使 用 £1_t[c] 时 ， 同 一列 中 的 £1_t[c+1] 和 fl t[c-1] 出 
现在 缓存 中 一 样 )。 

图 中 右 侧 的 图 像 展 示 了 下 一 次 的 x 轴 方 向 遍历 (++y, x=0:n-1)。 需 要 注意 的 是 ， 现 在 
x 轴 方 向 5 列 中 的 c 和 + 两 列 都 处 于 1 或 工 2 缓存 中 ， 而 剩 下 的 那 三 列 不 在 缓存 中 。 此 外 ， 
[c-1] 和 [c+1] 将 被 调和 信 缓存。 包括 每 一 个 内 核 的 兄弟 硬件 线程 在 内 的 所 有 线程 在 执行 过 
程 中 都 同样 活跃 。 通 过 统计 中 间 列 的 三 次 命中 数据 我 们 估算 出 缓存 命中 率 为 3/7 ( 42.86%)。 
这 个 命中 率 没有 估算 预 取 的 情况 ， 并 且 假 定 了 x 轴 方 向 的 长 度 不 大 于 缓存 的 容量 。 

上 面 的 内 容 只 是 一 个 简单 的 说 明 。 由 于 从 Zz 轴 方向 的 向 量 角 度 来 看 ， 多 个 单元 格 将 会 
在 同一 时 间 处 理 。 前 面 的 叙述 只 作为 可 视 化 的 帮助 。 


5.4 关于 该 方案 哪些 地 方 不 是 最 优 的 


首先 ， 同 一 内 核 内 的 各 兄弟 HT 间 共 享 内 核 内 的 LI 和 L2 缓存 。 每 个 内 核 都 有 自己 独 
立 的 Ll 和 1L2 缓存 。 因 此 原始 tiled 代码 (这 使 用 了 3/4 的 可 用 兄弟 HT) 中 每 个 内 核 内 的 三 
^r St HT 只 能 有 效 利用 内 核 上 1/3 的 共享 Ll 和 L2 缓存 。 而 且 根 据 起 始点 的 不 同 ， 兄 弟 
HT 可 能 会 出 现 假 共享 并 脱离 相互 间 的 热 缓 存 队 列 。 这 不 是 一 种 高 效 的 解决 方案 。 

这 里 描述 并 使 用 了 从 原始 tiled 代码 的 最 佳 设 置 转移 到 不 同情 况 下 采取 不 同 策略 的 方法 。 

注意 硬件 线程 (HT) 和 超 线程 (HT) 的 对 比 。 从 技术 层面 而 言 ，Intel 将 一 个 硬件 线 
程 称 为 一 个 Intel Xeon 处 理 器 的 超 线程 。 一 些 Intel Xeon 处 理 器 中 对 于 每 个 内 核 有 两 个 超 线 
程 ， 而 其 他 的 对 于 每 个 内 核 只 有 一 个 线程 。 在 Intel Xeon Phi 协 处 理 器 上 ， 每 个 内 核 有 4 个 
线程 ， 但 是 这 是 第 一 个 使 用 有 序 处 理 器 排序 的 产品 (代号 为 Knights CornerKNC) 。Intel 3E 
常 谨慎 地 宣称 这 些 不 是 超 线 程 的 原因 是 他 们 想 获 得 最 佳 的 性 能 。 事 实 上 ,许多 HPC 也 是 通 
过 关闭 超 线 程 上 工作 负载 的 方式 来 获得 最 佳 性 能 。 这 也 证 明了 如 果 不 是 非常 优秀 的 HPC 用 
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户 ， 很 少 使 用 超 线程 来 为 HPC 服务 。 关 闭 超 线程 是 必需 的 ， 在 KNC 上 的 使 用 证 明了 它 具 有 
较 低 的 性 能 。 而 且 KNC 线程 对 于 高 性 能 计算 非常 重要 。 其 中 一 个 重要 的 原因 是 ，KNC 是 一 
个 有 序 的 处 理 器 且 需 要 额外 的 线程 去 隐藏 内 存 延 迟 开 销 并 挖 气 使 用 向 量 处 理 器 单元 访问 的 全 
部 潜力 。 下 一 代 Intel Xeon Phi 产品 (代号 为 Knights Landing,KNL) 的 处 理 器 不 是 有 序 的 ， 
所 以 我 们 有 理由 猜测 它 将 会 使 用 任何 超 线程 技术 。 我 们 也 非常 纠结 并 意识 到 本 章 的 技术 在 
硬件 线程 和 超 线程 下 都 可 以 正常 使 用 。 因 此 我 们 选择 总 是 在 说 超 线程 并 且 我 们 最 后 还 是 会 再 
说 一 次 。 总 而 言 之 ， 对 于 我 们 而 言 不 管 HT 意味 着 什么 ， 我 们 知道 KNC 不 会 使 用 超 线程 了 ， 
但 是 我 们 认为 KNL 会 。 我 们 还 是 会 使 用 HT 不 管 你 如 何 理解 它 。 


5.5 超 线程 方 阵 编 码 


超 线 程 方 阵 是 通过 改变 外 部 计算 循环 而 引入 的 ， 使 得 每 个 内 核 的 HT 线程 相 邻 的 z 个 单 
元 格 在 y 轴 方 向 和 x 轴 的 下 方 (按照 向 量 方式 )。 该 技术 这 样 设计 的 原因 会 在 后 续 内 容 中 讨 
ib, 但 是 首先 我 们 要 看 看 选择 访问 模式 背后 的 原因 。 对 于 当前 特定 的 计算 循环 ， 这 种 超 线程 
方 阵 设 计 可 以 提高 L1 L2 的 缓存 命中 率 。 

我 们 扩展 了 图 5-4 的 单一 线程 ， 我 们 将 绘制 出 2 路 和 4 路 超 线程 方 阵 的 图 像 。 这 里 的 2 
路 超 线程 方 阵 同 样 适用 于 主机 处 理 器 。 

在 图 5-5 的 每 幅 图 像 中 ， 左 边 的 c 在 由 内 核 的 HT CO) 处 理 的 X 列 的 中 心 位 置 ， 右 侧 
的 c 在 由 内 核 的 HT (I) 处 理 的 X 列 的 中 
心 位 置 。 左 边 的 图 像 表 示 的 是 X 轴 (调和 页 
面 ) 的 冷 缓存 渗透 , Z 移动 到 右 侧 且 Y m P. 
c 的 浅 色 阴影 表明 了 其 中 一 个 线程 在 缓存 中 
没有 命中 ， 而 相连 线程 访问 的 同一 区 却 在 组 
存 命中 了 。 右 侧 的 图 像 显 示 了 义 癌 下 的 下 
一 步 运 动 。 注 意 现在 估算 的 缓存 影响 。c 和 
t 的 线程 都 命中 了 缓存 。 当 每 个 内 核 分 别 使 
用 三 个 线程 和 四 个 线程 时 ， 图 像 也 会 扩展 到 





3c 和 4c。 对 于 两 路 超 线程 方 阵 ， 缓 存 命中 VITSE. 上 
率 的 估算 值 为 10/14 (71.43%); 对 于 3 路 超 ” 绩 经 常 在 缓存 中 命中 率 10/14 
线程 方 阵 ， 缓 存 命 中 率 估 算 值 为 16/21 图 5-5 两 路 超 线程 方 阵 


(76.19%); 而 对 于 4 REREN E, RAAM 
中 率 估算 值 为 22/18 (78.57%)。 这 些 图 像 和 数据 表明 使 用 多 路 超 线程 方 阵 使 单线 程 的 缓存 
命中 率 明 显 提高 了 3/7 ( 42.86% ) 。 

超 线程 方 阵 的 第 二 个 优点 是 内 核 内 的 同 级 HT 通信 线程 能 够 共享 内 核 中 全 部 的 Ll 和 
L2 缓存 空间 。 它 比 每 核 单 线程 现 有 的 工作 空间 分 离 技 术 在 缓存 设置 上 的 线程 工作 量 增加 了 
2 ~ 3 4%. 

第 三 个 优点 是 它 能 够 避免 由 于 内 核 内 共享 出 错 引 起 的 内 核 内 线程 缓存 迁移 问题 。 

实现 超 线 程 方 阵 的 编程 改变 对 于 OpenMP 程序 员 来 说 是 非常 不 寻常 的 ， 但 是 还 比较 容 
易 实现 。 为 了 使 用 超 线程 方 阵 删除 #ragma omp for collapse(2) 代码 结构 ， 并 由 内 
核 与 内 核 中 的 HT 兄弟 线程 对 迭代 空间 进行 手动 划分 。 这 就 相当 于 删除 5 行 代码 的 同时 插入 
13 行 代码 。 
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5.5.1 如 何 确定 内 核 间 兄弟 线程 和 内 核 内 HT 线程 


我 们 可 以 使 用 程序 的 外 部 环境 变量 指定 内 核 间 的 亲和力 和 放置 位 置 ， 但 是 这 可 能 不 适用 
或 不 稳定 。 最 好 少 约束 和 告 求 环境 变量 。 而 使 用 一 组 亲和力 绑 定 变量 设置 对 这 个 功能 而 言 可 
能 是 最 好 的 ， 整 个 应 用 程序 可 能 会 从 线程 绑 定 的 不 同 程度 而 受益 。 因 此 ， 这 就 需要 程序 确定 
线程 绑 定 的 亲 和 程 度 并 将 其 应 用 在 环境 变量 上 。 对 于 程序 而 言 ， 更 有 效 的 方法 是 在 处 理 霹 间 
协同 执行 线程 。 

我 们 使 用 HyperThreadPhalanx.h 和 HyperThreadPhalanx.c 文件 提高 测试 程序 的 性 能 。 

EX HyperThreadPhalanx.c 实用 困 数 的 主要 功能 有 : 

e 确定 应 用 程序 中 最 外 层 的 OpenMP 线程 数 

e 计算 每 个 线程 的 逻辑 内 核 数量 〈 基 于 零 上 且 连 续 ) 

e 计算 内 核 中 每 个 线程 的 逻辑 HT 数量 (EPS HEAR) 

e 计算 逻辑 内 核 数 量 

e 计算 工作 集中 的 每 核 HT 数量 

对 于 非 HyperThreadPhalanx 只 要 是 合理 的 ， 应 用 程序 可 以 自由 选择 使 用 相应 策略 。 唯 
一 合理 的 规则 是 每 个 内 核 使 用 相同 数量 的 工作 线程 。 如 果 不 这 样 做 ， 当 前 程序 会 目 动 选择 一 
个 最 小 数 (通过 对 尚未 执行 的 不 正确 配置 进行 测试 )。 

注意 ， 程 序 必 须 在 源 文 件 中 使 用 HyperThreadPhalanx， 并 且 HyperThreadPhalanx 中 的 
目标 文件 也 必须 和 应 用 程序 链 起 来 。 这 些 文件 可 以 从 http://lotsofcores.com Fo 

HyperThreadPhalanx 目标 文件 以 及 两 个 线程 本 地 存储 变量 myCore 和 myHT 必须 
由 头 文件 在 命名 空间 中 引入 。HyperThreadPhalanxInit () 初始 化 函数 在 程序 的 开始 位 
置 只 调用 一 次 。 

FAK ERKA HPP 书 中 的 代码 和 示例 结合 起 来 。 


5.5.2 超 线程 方 阵 手 动 分 区 方法 
diffusion tiled HT1 EIA eh BCS n] 5-6 所 示 。 


diffusion tiled(REAL *restrict fl, REAL *restrict f2, 
int nx, int ny, int nz, 
REAL ce, REAL cw, REAL cn, REAL cs, REAL ct, 
REAL cb, REAL cc, REAL dt, int count) { 
#pragma omp parallel 
( 


REAL *fl t = £1; 
REAL *f2 t - f2; 


// number of Squads (singles/doublets/triplets/quadruples) 
// across z dimension 
int nSquadsZ = (nz + nHTs - 1) / nHTs; 


// number of full (and partial) 

// singles/doublets/triads/quads on z-y face 

int nSquadsZY - nSquadsZ * ny; 

int nSquadsZYPerCore = (nSquadsZY + nCores - 1) / nCores; 


// Determine this thread's triads/quads 
//(TLS init setup myCore and myHT) 
int SquadBegin = nSquadsZYPerCore * myCore; 
int SquadEnd = SquadBegin + nSquadsZYPerCore; 
if(SquadEnd > nSquadsZY) 
SquadEnd - nSquadsZY; // truncate if necessary 





图 5-6 diffusion tiled HT1 函数 
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// benchmark timing loop 
for (int 1 = 0; i < count; ++i) { 
// restrict current thread to its subset of Squads 
// on the Z/Y face. 
for(int iSquad-SquadBegin; iSquad«SquadEnd; ++iSquad) { 
// home z for O'th team member for next Squad 
int z0 = (iSquad / ny) * nHTs; 
int z = 20 + myHT; // z for this team member 
int y - iSquad $ ny; 


// last Squad along z may be partially filled 
// assure we are within z 
itf(z « nz) 
( 
// determine the center cells 
// and cells about the center 
int x = Q0; 
int c, n, $, 
e x+y Z = xx ong 
n (y == ? 0 8 8 = DX 
(y Ce C + nx 
( G 2:0 - nk * ny; 


Hon m nu MH 


Z 
(z ? & : G + nx * ny; 


// c runs through x, n and s through y, 
// b and t through z 

// x=0 special (no f1 t[c-1]) 

E2 te] ge * fl tlic] + cw * f1 t[c] 
ce * f1 t[c*1] + cs * f1 t[s] 
en * ELEDA] + cb * f1 t[b] 
et * EIL lt]; 


// interior x's faster 
#pragma noprefetch 
#pragma simd 

for (x = 1; x «€ nx-1;: w+) 


++C; D; 44S; b; ++t; 


£2 t[c] ac * £1 tra] cw * f1 t[c-1] 
ce * £1. t[c-1] cs * fl t[s] 
en * £l t[n] cb * £1 ¢[b] 

Gt * FL tie: 


} /f for (x = Le x < nx-l; x-*-*) 


// final x special (f1 t[c-«1]) 
++C; 4D; ++b; ++t; 


£2 t[c] fl t[c] + cw fi t[c-1] 
fl t[c] * cs fl t[s] 
fl t[n] * cb f1 t[b] 
ES ri vtl 
) // if(z « nz) 


) // for(int iSquad-SquadBegin;...) 


// barrier required because we removed implicit barrier 
// of #pragma omp for collapse(2) 
*pragma omp barrier 


REAL *t = ILl.t: 
ft E = E2.ts 
I2 E = É 
) // count 
) // parallel 
return; 
} 





图 5-6 (£2) 


实际 上 ， 我 们 移 除 了 和 OpenMP 循环 控制 有 关 的 5 行 代码 并 添加 了 13 行 手动 控制 代码 
(相差 8 行 代码 )。tiled_HTI1 代码 也 根据 阻塞 因素 执行 情况 进行 了 修改 。 为 了 能 够 支持 数据 
流 和 硬件 预 取 ， 我 们 移 除 了 阻塞 控制 模块 。 

原始 tiled 代码 和 新 的 tiled_HTI1 代码 在 每 个 问题 规模 上 的 三 次 运行 结果 如 图 5-7 所 示 。 
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export KMP AFFINITY-scatter + 
export OMP NUM THREADS-180 


./diffusion tiled xphi 
118771.945 

123131 . 672 

122726- 906 

Average: 121543.508 


./diffusion tiled Large xphi 
114972.258 

114524.977 

116626.805 

Average: 115374.680 


export KMP AFFINITY-compact 
unset OMP NUM THREADS 


./diffusion tiled HT1 xphi 
134904.891 

131310.906 

133888.688 

Average: 133368.162 


./diffusion tiled HT1, Large xphi 
118476.734 

118078.930 

118157.188 

Average: 118237.617 





图 5-7 diffusion tiled HT1 的 运行 数据 


实验 结果 表明 ， 超 线程 方 阵 策略 确实 在 小 型 模型 上 有 了 一 些 提高 ， 但 是 在 大 型 模型 没有 
改进 。 此 外 ， 小 型 模型 上 的 优化 效果 也 不 像 预 期 那样 明显 。tiled_HT1 代码 如 图 5-8 所 示 。 


扩散 部 分 代码 相对 于 omp 版 本 的 性 能 加 速 比 









| Eam Di 
一 一 m 256 x 256 x 256 
i ax i 512 x512 x 512 
Em 
— — 
RU — 
| 

omp ompvexct peel tiled tiledHT 1 


图 5-8 代码 对 齐 对 于 性 能 的 影响 


虽然 小 型 模型 上 的 提升 看 起 来 还 不 错 ， 但 是 这 不 适用 于 大 型 模型 。 我 们 将 分 析 一 下 具体 
原因 。 


5.5.3 吸取 教训 


早期 的 研究 是 从 这 里 开始 优化 的 。 然 而 ， 重 新 查阅 这 段 代 码 我 们 又 发 现 了 新 的 东西 。 在 
这 一 点 上 ， 出 现 的 分 卜 帮 助 我 们 从 经 验 中 不 断 成 长 。 

测试 系统 是 安装 在 不 同 硬盘 上 的 Windows 7 fll CentOS Linux 的 双 系 统 。 目 的 是 确定 在 
任何 操作 系统 上 不 会 对 运行 原生 的 协 处 理 器 造成 影响 ， 并 且 期 望 应 该 没有 明显 区 别 。 
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配置 环境 变量 用 于 分 别 在 CentOS 和 Windows 7 上 运行 3 BAM (图 5-8 针对 的 是 4 级 
方 阵 )。 出 乎 意料 的 是 ， 在 Windows 系统 上 运行 相同 的 代码 并 与 在 Linux 系统 协 处 理 顺 上 的 
运行 结果 相 比 ， 相 对 性 能 数据 是 相反 的 ! 在 更 快 的 Linux 主机 上 会 快 些 ， 在 更 慢 的 Windows 
上 会 慢 些 ， 反 之 亦 然 。 得 到 了 毫 无 意义 的 结果 。 

我 们 突然 有 个 想法 ， 是 不 是 数组 分 配 的 内 存 对 齐 问题 导致 的 ? 这 是 根据 对 于 Intel64 F 
台 和 IA32 平台 多 年 的 研究 经 验 得 出 的 。 因 此 ， 我 们 用 一 个 printf() 函数 输出 缓冲 区 地 址 。 结 
果 显 示 tileda 和 tiled HT 这 两 种 方案 都 是 16 字 节 对 齐 ， 并 在 页 面 中 出 现 大 致 相同 的 偏 
移 量 ， 所 以 数据 对 齐 的 差异 不 是 主要 原因 。 但 是 非常 奇怪 的 是 ， 输 出 的 两 个 缓冲 区 地 址 后 ， 
性 能 数据 依然 是 相反 的 。 运 行 结果 如 图 5-9 所 示 。 


[Jim@Thor-micO tmp]$ ./diffusion tiled xphi 

f1 = Ox7fbbf3945010 £2 = Ox7fbbef944010 printf 
FLOPS : 122157.898 (MFlops) With printf 

[Jim@Thor-micO tmp]$ ./diffusion tiled xphi 

f1 = Ox7ffaf7c0b010 f2 = Ox7ffaf3c0a010 printf 
FLOPS : 123543.602 (MFlops) With printf 


[Jim@Thor-mic0 tmp]$ ./diffusion tiled xphi 

fl = Ox7f3afa480010 f2 = 0Ox7f3af647f010 printf 
FLOPS : 123908.375 (MFlops) With printf 
Average with printf: 123203.292 MFlops 


[Jim@Thor-micO tmp]$ ./diffusion tiled xphi 

FLOPS : 114380.531 (MFlops) Without printf 
[Jim@Thor-micO tmp]$ ./diffusion tiled xphi 

FLOPS : 121105.062 (MFlops) Without printf 
[Jime?Thor-micO tmp]$ ./diffusion tiled xphi 

FLOPS : 116298.797 (MFlops) Without printf 
Average without printf 117261.463 Mflops 


With printf +5941.829 MFlops (+5.1% over without printf) 





图 5-9 相对 于 Open MP 的 diffusion tiled HT1 的 性 能 加 速 比 


显然 ， 由 于 代码 位 置 偏 移出 现 了 5% 的 性 能 偏 移 。 

这 就 意味 着 原始 tiled 代码 与 新 的 tiled_HT 代码 (之 前 版 本 ) 间 相 对 性 能 差异 性 完 
全 被 代码 位 置 的 偶然 性 缺失 所 掩盖 。 一 个 版 本 的 性 能 可 能 增加 5%， 男 一 个 也 可 能 减少 5%， 
这 种 性 能 的 差异 高 达 10%。 这 种 差异 是 对 于 特定 的 示例 代码 而 言 的 。 不 是 所 有 的 代码 出 现 这 
样 的 性 能 差异 都 是 由 代码 位 置 引起 的 。 

但 是 ， 下 次 使 用 这 样 的 例子 时 一 定 要 考虑 在 调整 过 程 中 出 现 的 代码 对 齐 问题 。 


5.6 回 到 工作 


改进 后 的 性 能 并 未 达到 预期 的 效果 。 我 们 在 小 型 模型 上 得 到 了 9.7% 的 性 能 提升 ， 而 在 
大 型 模型 上 仅 得 到 了 2.5% 的 性 能 提升 。 
运用 奥 卡 姆 剃刀 定律 : 如 果 我 们 没有 发 现 LI 的 命中 率 增加 ， 那 么 它 就 没有 发 生 过 。 
L1 缓存 命中 率 可 预料 的 提升 是 建立 在 特定 算法 中 LIl 缓存 的 计算 数据 量 大 小 的 基础 上 的 。 
3 路 小 规模 数据 : 
8x256Xx4=8KB 低 位，11 x256x4=11 KB 高 位 
4 路 小 规模 数据 : 
10 x 256 x 4 = 10KB 低位 ，14 x256 x4= 14 KB 高 位 
两 个 计算 结果 表明 在 L1 的 缓存 中 有 足够 的 空间 。 一 些 其 他 优化 内 容 可 以 继续 做 并 需要 
进一步 的 深入 研究 (本章 不 讨论 )。 
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在 不 考虑 上 述 讨 论 内 容 的 情况 下 ， 每 秒 133 亿 次 的 浮 点 运算 能 力 远 远 低 于 Intel Xeon 
Phi 协 处 理 需 的 计算 能 力 。 

现在 我 必须 思考 这 个 问题 : 这 个 优化 策略 中 性 能 下 降 的 地 方 都 有 哪些 ? 有 什么 方法 可 以 改进 ? 

有 两 件 事 情 值得 关注 ， 一 个 是 显而易见 的 ， 男 一 个 是 不 明显 的 。 


5.7 | SPENT FF 


IRT, EER BECOME E B GS IP i KE at SR EPR 
码 ， 如 果 有 利于 性 能 提升 ， 编 译 需 将 插 人 前 导 码 ， 前 导 码 主要 用 于 数据 对 齐 的 测试 和 对 齐 后 
的 执行 。 这 个 过 程 称 为 剥离 过 程 。 在 此 过 程 中 ， 编 译 器 插 人 那些 使 用 更 高 效 的 数据 对 齐 方式 
执行 的 代码 。 最 后 ， 在 剩 下 的 未 对 齐 数据 中 搬 人 后 置 码 以 完成 数据 处 理 过 程 。 

这 听 起 来 相当 简单 直到 你 看 到 内 部 循环 ( 见 图 5-10 )。 

在 图 5-10 的 代码 中 , £1 t[c-1] 和 
£1 t[c*1] 两 部 分 将 会 陷入 向 量 对 齐 测 | Prema simd ed: wet) ( 


` an > ++C; ttn; ++S; tb; ++t; 

试 中 。 因为 [=F] ` [c] 和 LETLI 水 还 £2 t[c] = cc * £1 t[c] * cw * f1 t[c-1] 
Ax mr dc . +t ce * fi_tic+il + cs * E21 tís] 

不 会 同时 进行 数据 对 齐 。 + cn * £1 t[n] + cb * f1 t[Db] 


编译 器 的 作者 是 否 足 够 聪明 来 为 这 二 
样 的 循环 过 程 提 供 一 些 具体 的 优化 措施 
Z? 事实 证 明 ， 他 们 可 以 。 

由 于 初始 化 过 程 充满 未 知 ， 代 码 必须 在 前 导 码 和 后 置 码 以 及 在 减少 内 部 循环 代码 的 迭代 
数目 上 做 更 多 的 工作 。 

要 特别 注意 的 地 方 是 ， 输 入 数组 £1_t 有 7 种 不 同 的 索引 方法 。 这 就 意味 着 确定 对 齐 信 
A, BA] B] Sr 83 FY RE Be TE p RE TR] AGE 7 种 索引 进行 排序 ， 而 索引 数字 最 大 的 那个 已 经 被 向 量 对 
齐 了 。 这 对 于 编译 需 代 码 生 成 和 为 额外 开销 开辟 潜在 区 域 是 比较 容易 完成 的 。 


5.7.1 尽 可 能 使 用 对 齐 的 数据 


Æ tiled HT2 程序 中 对 数据 对 齐 的 寻 址 方式 做 了 额外 的 优化 工作 。 

首先 ， 使 用 REAL 的 倍数 作为 NX 维 填 充 了 缓冲 行 。 这 个 要 求 是 合理 的 。 原 始 示例 代 
码 中 使 用 了 值 256。NX 对 于 浮 点 数 必须 为 16 的 倍数 ， 对 于 双 精 度数 必须 为 8 的 倍数 ， 这 个 
要 求 是 合理 的 。 

为 了 保证 数据 对 齐 ， 在 malloc 函数 的 基础 上 ， 使 用 了 带 参 数 的 using mm malloc 
PRATER EAT HA (64) 对 数组 进行 了 分 配 。 这 是 一 个 相对 简单 的 改变 。( 在 接 下 来 同样 
影响 分 配 的 优化 后 将 会 继续 介绍 这 一 点 。) 

RA, WE NX 总 是 绥 存 行 的 偶数 倍 了 ， 且 数组 已 经 与 缓存 行 对 齐 了 ， 我 们 构造 了 一 个 
果 数 处 理 最 内 层 循 环 。 在 该 循环 中 ， 我 们 已 经 知道 了 数组 引用 中 有 6 个 已 与 缓存 行 对 齐 且 两 
个 未 对 齐 (额外 的 引用 指 输出 数组 )。 这 两 个 未 对 齐 的 引用 指向 了 [c-1] 和 [c+1] 。 这 样 ， 
编译 带 可 以 提前 知道 哪些 引用 是 对 齐 的 和 哪些 是 未 对 齐 的 ， 不 需要 通过 插入 代码 来 确定 。 也 
就 是 说 ， 编 译 器 优化 能 够 减少 甚至 完全 消除 前 导 码 和 后 置 码 引起 的 时 间 开 销 。 


5.7.2 TRAVERS 
第 二 个 ( 非 显而易见 的 ) 改进 是 通过 宛 余 地 处 理 x=0 和 x=nx-1 获得 额外 的 优化 ， 就 





图 5-10 diffusion … 文 件 的 内 层 循 环 
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像 这 些 单元 格 位 于 正在 处 理 的 并 行 吸管 内 一 样 。 这 就 意味 着 可 以 跳 过 未 对 齐 的 循环 的 前 导 码 
和 后 置 码 部 分 ， 并 且 x=1 :15 元 素 可 以 直接 作为 对 齐 的 向 量 处 理 (与 逐步 计算 或 未 对 齐 的 问 
量 计 算 相 反 )。 我 们 可 以 对 这 16 个 元 素 做 相同 的 处 理 ， 但 是 最 后 一 个 元 素 ( x=nx-1) 的 计 
算 与 其 他 向 量 元 素 有 些 不 同 。 也 就 是 说 ， 在 对 x=0 Al x=nx-1 完成 错误 值 计算 (为 了 释放 
内 存 ) 之 后 ， 我 们 需要 执行 标量 计算 以 将 正确 值 插入 X 列 中 。 事 实 上 ， 我们 将 16 次 迭代 的 
两 次 标量 循环 转换 为 在 LI 缓存 上 的 两 次 操作 ( 1 次 16 路 回 量 操作 +1 次 标量 操作 )。 

添加 必要 的 元 余 主 要 包括 给 数组 的 两 个 向 量 元 素 分 配 比 实际 需求 更 大 的 数组 空间 ， 并 返 
回 第 二 个 向 量 的 指针 地 址 。 此 外 ， 需 要 将 前 一 个 元 素 值 和 负载 数组 大 小 后 面 的 一 个 元 素 值 清 
零 以 便 执行 “第 一 次 接触 ” 写 操作 。 分 配 内 存 操作 给 可 寻 址 内 存 〈 不 能 作为 空 数 据 使 用 ) 的 
两 次 额外 回 量 提供 内 存 。 由 页 面 位 置 和 分 配 程度 决定 是 否 进 行 “ 第 一 次 接触 ” 写 操 作 ， 但 如 
果 不 做 “第 一 次 接触 ”， 写 可 能 会 导致 页 面 出 错 。 

修改 分 配 后 的 代码 执行 结果 如 图 5-11 所 示 。 


// align the allocations to cache line 

// increase allocation size by 2 cache lines 

REAL *f1 padded = (REAL *) mm malloc( 
Sizeof(REAL)*(nx*ny*nz + N REALS PER CACHE LINE*2), 
CACHE LINE. SIZE); 


// assure allocation succeeded 
assert(fl padded != NULL); 


// advance one cache line into buffer 

REAL *fl = fl padded + N REALS PER CACHE LINE; 

f1[-1] = 0.0; // assure cell prior to array not SNaN 
fl[nx*ny*nz] = 0.0; // assure cell following array not SNaN 


// align the allocations to cache line 

// increase allocation size by 2 cache lines 

REAL *f2 padded = (REAL *) mm malloc( 
sizeof(REAL)*(nx*ny*nz + N REALS PER CACHE LINE*2), 
CACHE LINE SIZE); 


// assure allocation succeeded 
assert(f2 padded != NULL); 


// advance one cache line into buffer 
REAL *f2 = f2 padded + N REALS PER CACHE LINE; 


f2[-1] = 0.0; // assure cell prior to array not SNaN 
f2[nx*ny*nz] = 0.0; // assure cell following array not SNaN 





图 5-11 对 齐 和 填充 分 配 


作为 额外 的 优化 ， 编 译 硕 能 够 使 用 混合 乘法 和 增加 指令 生成 更 多 代码 。 
tiled HT2 代码 如 图 5-12 Aras. 


void diffusion tiled aligned( 
REAL*restrict f2 t c, aligned 
REAL*restrict fl t c, aligned 
REAL*restrict fl t w, not aligned 
REAL*restrict fl t e, not aligned 
REAL*restrict fi t s, aligned 
REAL*restrict fl t n, aligned 


REAL*restrict f1 t b, aligned 
REAL*restrict f1 t t, aligned 
REAL ce, REAL cw, REAL cn, REAL cs, REAL ct, 
REAL cb, REAL cc, int countX, int countY) { 
. assume aligned(f2 t c, CACHE LINE SIZE); 
| assume aligned(fl t c, CACHE LINE SIZE); 
. assume aligned(fl t s, CACHE LINE SIZE); 





图 5-12 diffusion tiled HT2.c 代码 摘录 
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. assume aligned(fl t n, CACHE LINE SIZE); 
. assume aligned(fl t b, CACHE LINE SIZE); 
. assume aligned(fl t t, CACHE LINE SIZE); 


// countY is number of squads along Y axis 
for(int iY = 0; iY < countY; ++iY) { 
// perform the x-0:N REALS PER CACHE LINE-1 
// as one cache line operation. 
// On Phi, 16-wide vector with one iteration 
// On AVX 8-wide vector with two iterations 
// On SSE 4-wide vector withfour iterations 
#pragma noprefetch 
#pragma simd 
for (int i = 0; i < N REALS PER CACHE. LINE; i++) { 
f2 € Efe) cc * fl t c[i] + cw * £1 t w(i] 
ce * fl t efi] + cs * £1 t s[1i] 
cn * flt n[i] + cb * fl t bli] 
ep fL E Eales 
} // for (int i = 0; i < N REALS PER CACHE LINE; i++) 
// now overstrike x=0 with correct value 
// x=0 special (no f1_t[c-1]) 
f2 t clol = ce < £L t elt] = cw * EL t wll) 
+ ce * f1 t_e[0] + cs * £1 t s[0] 
+ cn * f1t n[0] + cb * fi t b[0] 
+ ce * £1 E ELIO; 
// Note, while we could overstrike x-[0] and [nx-1] 
// after processing the entire depth of nx doing so 
// will result in the x=0th cell being evicted from L1. 
// Do remainder of countX run including incorrect value 
// for i-nx-1 (countX-1) 
#pragma vector nontemporal 
#pragma noprefetch 
#pragma simd 
for (int i = N REALS PER CACHE LINE; i < countX; i++) 
REA LB SD] cec * £l t éli] + ew * £1 t wli] 
ce * £1 t eli] + cs * fL s[i] 
cn + £1 t nli] + cb *'f1 t bli] 
et > fi thils 
} // for (int i = 0; i < N REALS PER CACHE LINE; i++) 
// now overstrike x=nx-1 with correct value 
// x=nx-1 special (no £f1_t[c+1]) 
int i = countX-1; 
f2 t eri] = ae * £L etli] + ew * Fit wIi-1] 
+ ce * f1 t e[i] + cs * f1.t s[i] 
+ cu * fl t n[i] + cb * £1 t b[i] 
^ et * £1 t ciil; 
// advance one step along Y 
f2 t € += countx; fl t c += countX; Il t W countX; 
fl t e += countX; fl t s += countX; flt n countX; 
fl t b += countX; fl. t t += countX; 
yY // for(int iY = Qf iY < countY; ++1Y) 
) // void diffusion tiled aligned( 


diffusion tiled(REAL *restrict f1, REAL *restrict 
int nx, int nv, int nz; 
REAL ce, REAL cw, REAL cn, REAL cs, REAL ct, 
REAL cb, REAL cc, REAL dt, int count) { 
#pragma omp parallel 
( 
REAL *f1 t Fis 
REAL *f2 t £2; 
// place squads across z dimension 
int nSquadsZ = (nz + nHTs - 1) / nHTs; 


// number of full/partial squads on z-y face 
int nSquadsZY = nSquadsZ * ny; 
int nSquadsZYPerCore = (nSquadsZY + nCores - 1) / 


// Determine this thread's squads 
int SquadBegin = nSquadsZYPerCore * myCore; 
int SquadEnd = SquadBegin + nSquadsZYPerCore; 
if(SquadEnd > nSquadsZzY) 

SquadEnd = nSquadsZY; 


for (int i= 0; i < count: ++i% { 





图 5-12 (£) 
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int nSquads; 


// restrict current thread to its subset of squads 
// on the Z/Y face. 3 
for(int iSquad - SquadBegin; iSquad « SquadEnd; 
iSquad += nSquads) { 
// determine nSquads for this pass 
if(iSquad % ny == 0) 
nSquads = 1; // at y==0 boundary 
else 
if(iSquad % ny == ny - 1) 
nSquads = 1; // at y==ny-1 boundary 
else 
if(iSquad / ny == (SquadEnd - 1) / ny) 
nSquads = SquadEnd - iSquad; // within 1:ny-1 
else 
nSquads = ny-(iSquad$ny)-1; // iSquad$ny:ny-1 


int z0 = (iSquad / ny) * nHTs; // home z for HT(0) 
int z = 20 + myHT; // z for HT(myHT) 
int y = iSquad % ny; 
// last squad along z may be partially filled 
// assure we are within z 
if(z « nz) 
int 


H 
3d 
er 


* nx * ny; 
; € - nx; 
$ C T IX; 
: : C = nx * ny; 
T? & 1gck NX U 3D] 
5 _aligned ( 
&f2 t[c], &f1 t[c], // aligned 
&f1 t[c-1], &f1 t[c«1], // unaligned 
&fl t[s], £1 t[n], &£1 t[b],&f1 t[t],// aligned 
ce, cw, cn, cs, ct, cb, cc, nx, nSquads); 
) ZF E(B <= nz) 
} // for(int iSquad = SquadBegin; 
// barrier required because we removed implicit 
// barrier of #pragma omp for collapse(2) 
#pragma omp barrier 
// swap buffer pointers 
REAL *t = £1 t; 
fl t = EX t» 
EA t = t; 
} // count 
) // parallel 
return; 
) // diffusion tiled 
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图 5-12 (5) 


图 5-13 中 的 性 能 图 体现 了 两 项 新 的 程序 
tiled HT2&, 

从 图 5-13 中 能 够 清楚 地 看 到 ，diffusion tiled HT2 已 经 开始 发 挥 作用 ， 至 少 在 
小 规模 模型 上 又 获得 了 9.5% 的 性 能 提升 。 但 是 需要 注意 的 是 ， 代 码 调 整 仍然 存在 问题 ， 且 
图 中 并 未 考虑 这 一 点 。 

那么 还 有 哪些 可 以 优化 的 地 方 呢 ? 


5.8 深入 讨论 分 阶段 准 同步 栅栏 

现在 我 们 将 深入 讨论 本 章 的 主题 : 分 阶段 准 同步 栅栏 。 

对 于 这 种 优化 方法 ,我 们 需要 使 用 一 个 合适 的 描述 性 词语 解释 “ 准 同 步 ” 和 “松散 同步 ” 
线程 的 行为 。 

在 电信 系统 中 ， 准 同步 系统 是 指 系统 中 各 部 分 相差 不 大 ， 但 是 并 非 完 全 同步 。 





diffusion tiled HIT1L1 和 qiftftusion _ 
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扩散 部 分 代码 与 omp 版 本 相 比 的 性 能 加 速 比 
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omp ompvect peel tiled tiledHT 1 
图 5-13 diffusion tiled HT2 


在 任何 大 规模 多 线程 应 用 程序 中 ， 同 步 线 程 池 栅 栏 与 所 有 线程 浪费 了 大 量 的 处 理 资源 。 
在 模拟 扩散 过 程 和 其 他 应 用 程序 中 ， 模 拟 过 程 需要 经 过 多 个 时 间 间 隔 才 能 显示 出 结果 。 示 例 
的 应 用 程序 中 表示 的 是 整个 模拟 的 运行 时 间 。 在 典型 模拟 应 用 程序 中 ， 提 前 设置 模拟 器 的 时 
间 间 隅 为 N， 再 记录 或 显示 当前 状态 。 然 后 再 模拟 另 一 个 大 小 为 N 的 时 间 间 隔 。 

diffusion tiled HT2 代码 中 使 用 了 小 规模 模型 (256x256x256), 4 个 线程 组 成 
—^ JA. 64164 的 方 阵 沿 着 Y 方向 以 256 步 长 等 分 整个 Z 方 向 。 这 就 表示 沿 着 义 方 向 分 
MA 16384 个 点 。 每 个 内 核 C60) 在 和 X 方 向上 平均 划分 得 到 16394/64 ( 273.0666… ) 个 点 。 
因为 点 的 个 数 不 是 整数 ， 所 以 不 能 保证 所 有 内 核 分 配 到 相同 数量 的 点 。 因 此 我 们 在 56 个 内 
核 上 平均 分 配 了 273 个 点 ， 剩 下 的 4 个 内 核 平均 分 配 了 274 个 点 。 各 内 核 之 间 的 平均 工作 负 
载 差 别 只 有 1/273。 这 就 是 我 们 通常 所 说 的 成 本 开销 。 

如 果 只 有 这 些 成 本 开销 问题 就 简单 多 了 。 实 际 上 ， 在 60 个 内 核 的 240 个 线程 上 ， 我 们 
难以 保证 所 有 线程 从 一 个 并 行 区 域 同时 开始 ， 更 不 能 保证 所 有 线程 在 该 区 域 中 同时 结束 。( 即 
使 它们 在 名 义 上 执行 了 相同 的 负载 )。 正 如 本 章 前 面 提 到 的 ， 通 过 增加 指令 的 方式 获得 所 有 
线程 在 do-work 部 分 和 栅栏 部 分 的 使 用 时 间 ， 测 试 结 果 表 明 对 于 小 规模 问题 (256x256 x 
256) KAA 25% 的 计算 时 间 用 于 栅栏 。 该 
部 分 的 时 间 开 销 太 高 了 。 Er 一 一 一 一 P 

那么 ， 如 何 减 少 栅栏 时 间 呢 ? | 

我 们 构造 了 一 个 由 每 核 4 线程 的 双核 处 | 
Soar 16x16x16 大 小 数组 (忽略 向 量 ) 组 
成 的 简化 结构 图 。 当 第 一 个 线程 开始 执行 同 | 
步 操 作 时 ，tiled_HT2 代码 实现 了 并 行 区 t | 
域 开 始 阶段 的 零 误 差 与 相同 的 计算 时 间 ( 栅 | CADE 

| 
| 
| 
| 
| 
V 
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栏 处 的 时 间 开 销 为 0 )， 如 图 5-14 所 示 。 

图 中 左 侧 区 域 是 编号 为 0 的 处 理 器 内 核 
负责 的 区 域 ( HT 线程 0 — 3 跨越 了 每 个 条 带 
的 宽度 )， 右 侧 区 域 为 编号 为 1 BRE SR VALER 
负责 的 部 分 (HT 线程 0 ~ 3 跨越 了 每 个 条 带 
的 宽度 )。 理 想 的 情况 是 两 个 内 核 同 时 开始 并 ay 
且 同 时 结束 。 图 5-14 ”同步 结束 
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真实 的 模拟 情况 如 图 5-15 所 示 。 

其 中 白色 单元 格 是 当 第 一 个 线程 的 负载 运行 结束 后 尚未 处 理 的 单元 格 部 分 。 

在 图 5-16 中 ， 第 一 个 线程 到 达 栅 栏 位 置 ( 图 中 丰 下 角 的 世 ) 并 等 竺 剩余 进程 运行 结束 。 
然后 第 二 个 线程 到 达 栅 栏 位 置 等 待 其 他 进程 ， 以 此 类 推 ， 和 直到 所 有 进程 运行 结束 ， 开 始 执行 
同步 。 在 这 里 使 用 越 多 的 线程 就 意味 着 栅栏 中 的 等 待 时 间 越 长 ， 
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图 5-15 解决 线程 结束 循环 时 的 负载 不 均衡 问题 图 5-16 抢占 进程 负载 不 均衡 


极端 情况 下 的 例子 如 图 5-16 Brzn . 

在 图 5-16 中 ， 当 第 二 个 内 核 的 第 一 个 t3 线程 到 达 栅 栏 位 置 时 ， 第 一 个 内 核 的 t1 线程 还 
没有 开始 执行 它 的 工作 。 这 种 情况 是 由 于 存在 其 他 进程 运行 在 该 硬件 线程 上 造成 的 。 也 有 可 
能 是 操作 系统 正在 运行 整理 工作 而 引起 的 。 

无 论 是 在 正常 的 情况 下 还 是 异常 的 情况 ee - 
下 ， 都 会 有 大 量 的 时 间 消 耗 在 同步 上 。 oFEERETTITE 


Hp ^ | 

5.9 如 何 节 省 时 间 | 
我 们 使 用 的 解决 方案 是 将 处 理 器 内 核 划 | 

AY MAG AS ZT) (本 例 中 有 4 个 全 方 阵 | 
分 组 )、ny 个 立方 向 和 mx 个 X 方 向 的 片 状 
| 

| 

| 

| 

| 

| 

V 





片 状 结构 的 左 侧 和 右 侧 区 域 代 表 了 每 个 
内 核 第 一 次 传输 时 (设置 为 双核 ， 每 核 4 个 
线程 ) 分 配 的 工作 区 域 。 

第 一 个 线程 负载 完成 的 工作 状态 如 图 5-17 
所 示 。 

现在 ， 由 单个 内 核 栅 栏 代替 了 单个 线程 nY 
池 的 栅栏 。 当 内 核 的 某 个 线程 第 一 次 执行 完 图 5-17 方 阵 在 立方 向 的 运行 情况 
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成 后 ， 该 内 核 中 其 他 线程 的 完成 状态 如 图 5-18 所 示 。 
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此 时 ， 这 种 方式 没有 采用 等 待 线程 池 中 所 有 线程 同时 到 达 栅 栏 并 进行 同步 的 操作 (在 这 
个 简化 图 中 是 指 左 侧 的 4 个 线程 )， 完 成 进程 栅栏 的 第 一 个 线程 可 以 继续 处 理 下 一 个 可 用 的 
Z 组， 并且 能 够 在 其 他 进程 到 达 栅 栏 之 前 开始 处 理 。 当 0 号 进程 完成 内 核 栅栏 时 ， 它 的 状态 


如 图 5-19 所 示 。 
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图 5-18 第 一 个 内 核 在 Y 方向 的 运行 完成 情况 
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图 5-19 第 二 个 内 核 完 成 工作 


执行 过 程 : 当 一 个 进程 处 理 完成 后 ， 挑 选 下 一 个 Z 组 ， 以 模 计数 器 的 形式 继续 执行 (从 


0 到 nz=-1)。 该 模 计 数 器 包含 了 溢出 次 数 。 


使 用 准 同步 栅栏 的 最 大 优点 是 可 以 时 刻 标记 代码 中 传统 线程 池 栅 栏 出 现 的 位 置 和 状态 。 


它 位 于 整个 数组 循环 (通常 称 为 框架 ) 的 结束 部 分 。 


在 原始 的 OpenMP 程序 中 ， 我 们 标记 隐 式 栅 
FH] #pragma omp parallel 的 结尾 位 置 ， 而 在 
修订 的 diffusion tiled HT1 和 diffusion 
tiled HT2 程序 中 同样 标记 了 隐 式 #pragma omp 
barrier 位 置 。 

准 同步 栅栏 技术 能 够 使 得 内 核 结 束 一 个 框架 
后 进入 下 一 个 框架 ， 只 要 满足 下 一 个 框架 的 依赖 
大 系 。 详 细 解 释 如 图 5-20 所 示 。 

在 图 5-20 中 ， 未 标记 的 部 分 表示 能 够 满足 依 
赖 关 系 ( 前 一 个 迭代 从 正在 执行 的 线程 获取 数据 
并 结束 )。 紧 邻 最 右边 的 条 状 区 域 表 示 一 个 内 核 结 
RHEE n (Z 方 向 上 没有 其 他 未 选择 的 条 带 ) 的 内 
核 ， 该 进程 尚未 分 配 到 当前 框架 可 用 的 Z 组 数据 ， 
并 且 该 进程 将 跳 过 框架 栅栏 ， 即 使 最 后 一 个 内 核 
还 没有 到 达 框 架 栅栏 。 一 旦 到 达 下 一 框架 的 第 一 
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准 同步 的 框架 执行 过 程 





图 5-20 
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列 ， 将 会 查询 第 二 列 框架 的 执行 情况 ， 如 果 大 于 或 等 于 下 一 个 ffame-1， 则 人 允许 该 进程 进入 
下 一 列 中 。 

注意 ， 如 果 选 中 的 Z 组 和 它 的 邻居 位 置 Z 的 (z-1、z 和 z+1 ) 不 是 在 当前 阶段 减 1 或 之 
后 的 位 置 ， 那 么 进程 就 不 能 向 前 继续 执行 。 如 果 不 这 么 做 ， 向 前 执行 的 进程 可 能 会 使 用 到 没 
有 及 时 更 新 的 数据 。 这 就 是 需要 使 用 plesiochronous barrier 的 位 置 。 

如 果 内 核 在 前 一 个 图 中 没有 完成 第 二 列 的 处 理 过 程 ， 那 么 处 理 第 一 列 的 内 核 需要 在 准 同 
步 栅栏 中 等 竺 。 

SARS ( 超 线 程 方 阵 列 ) 的 数量 超过 内 核 数 ( 方 阵 的 ) 两 倍 或 两 倍 以 上 时 ， 准 同 
步 栅栏 技术 的 优势 将 更 加 明显 。 在 大 规模 模型 下 正 是 如 此 (512/2-128 个 方 阵 列 /60 核 = 
2.1333 )。 这 就 表明 大 模型 要 比 小 模型 优化 效果 更 好 。 在 观察 测试 用 例 结果 时 ， 发 现任 何 情 
况 下 都 能 看 到 主要 的 优化 效果 。 

图 5-21 展示 的 是 本 测试 用 例 的 准 同步 栅栏 技术 。 


#if defined( MIC ) 

#define WAIT A BIT mm delay 32(10) 
#else 

#define WAIT A BIT _mm_pause(); 
#endif 


void diffusion tiled aligned( 
(same as for tiled HT2) 
} 


diffusion_tiled(REAL *restrict f1, REAL *restrict f2, 
int. nx, int ny, int nz, 
REAL ce, REAL cw, REAL cn, REAL cs, REAL ct, 
REAL cb, REAL cc, REAL dt, int count) ( 
// zCountCompleted[nz] is a shared array indicating 
// the iteration counts completed for the z index. 
// Each thead processes all [x,y]'s for given z 
volatile int zCountCompleted[nz]; 
for(int i = 0; i < Az; +41) 
zCountCompleted[i]--1; // "completed" one before first 


// shared next Phalanx number 
volatile int NextPick - 0; 


// CorePick[nCores] NextPicked'd Phalanx number for core 
volatile int CorePick[nCores]; 
for(int i = 0; i < nCores; ++i) 

CorePick[i] = -1; // initialize to less than next pick 


#pragma omp parallel 
{ 


REAL *f1_t; 
| REAL *f2 t; 
int priorCount - -1; 
int myCount - -1; 
int myPick - -1; // (prior pick for 1st iteration of loop) 
// place squads across z dimension 
int nSquadsZ = (nz + nHTs - 1) / nHTs; 
Lor (ys) í 
if(myHT == 0) { 
// team member 0 picks the next Squad 
CorePick[myCore] = 
myPick 
= sync fetch and add(&NextPick, 1); 
) else ( 
// other team members wait until pick made by member 0 
while(CorePick[myCore] -- myPick) 
WAIT A BIT; 


myPick = CorePick[myCore]; // pick up new pick 





图 5-21 ETI ZEAE diffusion tiled HT3.c 代码 摘录 
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) // myHT !- 0 
myCount - myPick/nSquadsZ; // count interval for myPick 


// see if iteration count reached 
if(myCount »- count) 
break; // exit for(;;) loop 


// determine which buffers are in and out 
if(myCount & 1) ( 
fl t t2: 
f2 t f1; 
else 
f1 € 
f2 t 


ites th M 


f1; 
£2; 
) 


int z0 (myPick $ nSquadsZ) * nHTs;// home z for HT(0) 
int z = z0 + myHT; // z for this team member 
int y = 0; 
// assure we are within z 
if(z < nz) í 

// perform plesiochronous barrier 

priorCount - myCount - 1; 

if(z) // then there is a z-1 

while(zCountCompleted[z-1] « priorCount)//wait z-1 
WAIT A BIT; 


while(zCountCompleted[z] « priorCount) // wait z 
WAIT A BIT; 


if(z + 1 < nz) // then there is a z+l 
while(zCountCompleted[z+1] < priorCount) // wait z+1 
WAIT A BIT; 


x = Os 


H. 
Jd 
rt 


// perform y== 


* nx * nys 

C - nx; 

C+ nx; 

c - nx * ny; 
et G Dx * ny) 
diffusion tiled aligned( 

&f£2 t[c], // aligned 
&f1 t[c], // aligned 
&fl t[c-1], // unaligned 
&fl t[c*1], // unaligned 
&ELl tis], // aligned 
&fl t[n], // aligned 
&f1 t(b], // aligned 
&fl ELET; // aligned 
ce, Cw, Cn, C8, ct, Cb, cC, 

// perform y--1:ny-2 

y 


hou mn th dH a 
Hl | GO | t 


, 


x 


un m n Hn m d 
Ho "n n m" + 


_tiled_aligned ( 

&f2 tle], // aligned 

flte], // aligned 

&f1l t[c-1], // unaligned 

&£1 t[c-*1], // unaligned 

&r1. tis], // aligned 

&f1 t[n], // aligned 

fi t[b], // aligned 

&fl t[t], // aligned 

ce, CW, CH, CB, CL, CD; CC, DX, Dy-2): 


C 
n 
S 
b 
t 
d 


// perform y--ny-1 
ny-1; 
x+y = ne SB * nx " ny; 
(y == 0) ?c:c- nx; 


图 5-21 (£4) 
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iffusion tiled aligned( 

&£2 t[c], // aligned 

&f1 tie], // aligned 

&fl t[c-1], // unaligned 

EL t[e+l], // unaligned 

&fl t[s], // aligned 

&f1 t[n], // aligned 

erTi tibl; // aligned 

SEL EIE], // aligned 

ce, CW, On, eS, GE, cb, cc, nx, 1); 


// Inform other threads that [z] column is complete 
zCountCompleted[z] - myCount; 


// perform equivilent of Core barrier 

int, zEnd = (20 + HTS < nz) ? 20 + nHTS : 

for(int i = z0; i « zEnd; ++i) 
while(zCountCompleted[i] < myCount) 


WAIT A BIT; 
) // if(z « nz) 
) Jf Eorl; j) 
) // parallel 
return; 


) 
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让 我 们 看 看 优化 后 的 性 能 如 何 。 
图 5-22 表示 在 处 理 小 规模 问题 时 获得 了 额外 的 2096 性 能 提升 。 对 于 解决 大 规模 问题 ， 
它 又 恢复 到 了 与 不 做 修改 的 HT1 和 HT2 代码 相同 的 性 能 。 


扩散 部 分 代码 相对 于 omp 版 本 的 性 能 加 速 比 


m 256 x 256 x 256 


m 512512 x 512 





[ 5-22 Intel Xeon Phi 5110P 协 处 理 器 


在 这 一 点 的 优化 上 ， 简 化 的 OpenMP 版 本 现在 达到 了 14 ~ 15 倍 的 性 能 提升 ， 比 HPP 
书 中 第 4 章 的 示例 性 能 提升 了 4596. 

我 们 还 可 以 在 哪些 方面 做 进一步 的 优化 呢 ? 
5.10” 几 个 留 给 读者 的 优化 思考 

还 有 一 些 未 在 本 章 中 介绍 的 额外 的 优化 方法 ， 这 些 可 能 会 在 下 一 步 的 工作 中 使 用 。 这 些 
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措施 主要 包括 指导 prefetch 和 clevict 编译 指令 ， 以 及 插 人 编译 需 指 令 以 进行 手动 代码 
对 齐 。 当 然 也 可 以 考虑 一 下 问题 规模 扩大 到 单个 协 处 理 需 内 存 容 量 不 足以 运行 程序 时 可 能 
现 的 情况 。 准 同步 栅栏 技术 同样 适用 于 受 单个 协 处 理 需 内 存 约 束 的 大 规模 问题 。 


5.11 类 似 Xeon Phi 协 处 理 器 的 Xeon 主机 性 能 优化 


在 这 里 指出 分 阶段 准 同步 栅栏 技术 在 多 个 内 核 上 的 性 能 提升 明显 是 非常 重要 的 。 也 就 
是 说 ， 甚 至 在 1P、6 个 内 核 、12 个 硬件 线程 的 系统 上 依然 可 以 高 效 执行 。 比 如 图 5-23 中 的 
Intel Xeon E5-2620 v2 处 理 需 。 


扩散 部 分 代码 的 计算 能 力 (以 每 秒 多 少 亿 次 浮 点 运算 表示 ) 


50 

40 

30 m 256 x 256 x 256 1T/C 
a 256 x 256 x 256 2T/C 

20 8 512x 512x512 1T/C 
8 512 x512 x 512 2T/C 





omp ampvedt p 
图 5-23 Intel Xeon E5-2620 v2 NbFHAS 


注意 ， 图 5-23 展示 的 主机 处 理 器 型 号 ( ES-2620 v2) 和 之 前 展示 的 Intel Xeon Phi 协 处 
理 器 型 号 不 相同 。 这 主要 是 由 于 主机 处 理 器 上 的 每 个 内 核 通常 只 使 用 单个 线程 。 然 而 ， 我 们 
通常 在 协 处理 器 上 的 各 个 内 核 核 上 使 用 多 个 线程 。 通 过 运行 所 有 相对 于 OPenMP 版 本 的 一 
个 或 两 个 线程 ， 很 难 发 现 每 个 内 核 使 用 单线 程 和 两 个 线程 的 效果 差别 。 因 此 ， 我 们 绘制 的 图 
都 是 使 用 每 秒 多 少 亿 次 浮 点 运算 的 形式 表示 的 。 此 外 ,， tiledHT3 代码 总 是 使 用 每 个 内 核 双 
线程 运行 的 ， 因 为 超 线程 方 阵 不 能 在 每 个 内 核 上 有 少 于 2 个 线程 。 

通过 观察 图 5-23 我 们 发 现 ， 在 原始 “tiled” 代 码 运行 中 每 个 内 核 双 线程 的 性 能 比 每 个 
内 核 单线 程 的 性 能 还 要 差 。 导致 这 种 情况 频繁 发 生 的 原因 是 在 浮 点 数 密集 的 程序 上 每 个 内 核 
双 线 程 比 每 个 内 核 单线 程 表 现 出 更 差 的 性 能 。 显 然 ， 准 同步 超 线程 方 阵 的 相对 执行 性 能 证 明 
了 使 用 每 个 内 核 双 线 程 的 这 个 观点 。 

256 x 256 x 256 tiledHT3/tiled =1:1.2 ( 20% 的 提升 ) 
512 x 512 x 512 tiledHT3/tiled =1:1.4 (40% 的 提升 ) 

现在 我 们 将 测试 在 具有 16 核 32 线程 的 Intel Xeon E5-2670 处 理 器 的 大 规模 双 插 槽 系统 
上 的 性 能 。 

如 图 5-24 所 示 ， 我 们 发 现 了 一 些 意料 之 外 的 事情 。 每 个 内 核 双 线程 的 大 模型 上 的 tiled 
程序 获得 了 不 同 寻常 的 性 能 加 速 比 。 在 每 个 内 核 双 线程 的 大 模型 上 运行 其 他 所 有 的 示例 代码 
(如 omp、ompvect、peel、tiled)， 每 个 内 核 双 线 程 的 大 模型 总 是 运行 非常 慢 。 图 5-24 展示 
了 传统 的 优化 技术 ， 不 能 得 出 超 线程 技 术 是 无 效 的 结论 。 必 须 运行 测试 程序 才能 得 到 结果 。 
tiledHT3 代码 的 运行 结果 清楚 地 说 明了 使 用 超 线程 技术 的 优势 ， 与 分 阶段 准 同步 栅栏 技术 
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结合 可 获得 优异 的 性 能 。 


扩散 部 分 代码 在 2P 16C 32T Xeon E5-2670 2T Compact 
上 的 计算 能 力 (以 每 秒 多 少 亿 次 浮 点 运算 表示 ) 





50 

40 

30 m 256 x 256 x 256 1T/C 
* 256 x 256 x 256 2T/C 

T 8512x512x 512 1T/C 

40 m 512x512 x 512 2T/C 


en 


图 5-24 带 有 Intel Xeon E5-2620 v2 处 理 器 的 双 搬 覃 系统 


256 x 256 x 256 tiledHT3/tiled =1:2.3 (23% 的 提升 ) 
512 x 512 x 512 tiledHT3/tiled =1:1.086 ( 8.6% 的 提升 ) 


我 们 在 每 个 内 核 单 线程 上 运行 大 规模 tiled 代码 的 性 能 提升 百分比 如 下 : 
512 x 512 x 512 tiledHT3/tiled =1:1.45 ( 45% 的 提升 ) 


5.12 总 结 


本 章 提 出 了 进一步 高 效 利 用 全 部 计算 资源 的 方法 。 而 编译 硕 优化 的 开发 和 吉 zagma 定 
加 编程 不 允许 在 本 章 的 线程 调度 级 上 使 用 ， 但 这 并 不 妨碍 我 们 充分 利用 平台 的 计算 能 力 。 时 


间 就 是 金钱 。 


5.13 更 多 信息 
下 面 罗 列 的 内 容 是 我 们 推荐 的 与 本 章 相关 的 额外 阅读 材料 : 


e http://en.wikipedia.org/wiki/Plesiochronous system. 


e 请 在 http://lotsofcores.com 上 下 载 本 章 和 其 他 章节 的 代码 。 
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故障 树 表达 式 并 行 求解 
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配置 Intel Xeon Jb FE AEA Intel Xeon Phi 协 处 理 絮 的 最 新 硬件 支持 复杂 科学 模拟 的 可 视 
化 和 交互 性 。 然 而 ， 科 学 和 工程 模拟 中 的 数据 集 大 小 在 持续 增加 ， 并 且 期 待 可 以 继续 维持 交 
互 性 。 处 理 器 和 协 处 理 器 硬件 上 的 交互 性 模拟 的 一 个 核心 组 件 是 开发 SIMD 并 行 性 。 本 章 将 
会 介绍 在 交互 性 应 用 环境 中 具有 大 规模 输入 的 故障 树 表 达 式 求解 这 一 问题 中 如 何 发 现 并 利用 
SIMD 并 行 性 。 


6.1 动机 和 背景 
6.1.1 表达 式 


表达 式 通 过 符号 间 语 法 和 语义 表达 数学 关系 。 在 本 章 中 ， 我 们 关注 在 运行 时 经 常 需要 修 
改 的 大 规模 表达 式 的 求 值 。 我 们 还 将 关注 这 些 可 修改 的 表达 式 在 表达 式 规 模 和 实例 数量 两 个 
方面 的 扩展 。 

表达 式 求 值 是 程序 员 求 解 不 同 计算 问题 的 数学 基础 。 在 科学 计算 和 工程 应 用 中 ， 天 然 
地 依赖 于 求解 做 和 人 在 模拟 程序 中 的 数学 表达 式 。 当 应 用 到 持续 增长 的 数据 集 上 时 ， 这 些 表达 
式 的 规模 非常 巨大 并 十 分 复杂 。 通 常 而 言 ， 当 已 知 的 模拟 表达 式 可 以 直接 应 用 到 某 个 程序 中 
时 ， 代 码 的 易 用 性 将 牺牲 一 部 分 性 能 。 然 而 ， 通 过 开发 并 行 性 ， 并 行 硬 件 允 许 应 用 程序 在 大 
规模 数据 集 求 解 表 达 式 的 同时 维护 交互 性 。 在 某 些 应 用 中 ， 可 以 不 同 通过 编写 代码 而 有 效 地 
求解 大 规模 表达 式 。 


6.1.2 ”表达 式 选 择 : 故障 树 


术语 “大 规模 表达 式 求解 ”的 确切 含义 是 模糊 的 ， 并 需要 指定 其 合适 的 使 用 范围 。 本 章 
中 使 用 的 例子 是 易 损 性 评估 中 用 到 的 大 规模 故障 树 求解 。 

易 损 性 评估 是 表示 和 量化 目标 系统 中 缺陷 的 过 程 。 这 类 研究 通常 属于 系统 工程 。 许 多 系 
统 通过 故障 树 的 表示 ， 避 免 潜 在 的 危险 。 故 隐 树 利用 布尔 逻辑 表达 系统 间 的 故障 关系 。 基 于 
组 件 的 可 靠 性 、 系 统 宛 余 性 、 物 理 保 护 和 其 他 一 些 潜 在 的 领域 相关 的 参数 ， 模 拟 方 法 利用 故 
障 树 分 析 ( Fault Tree Analysis, FTA) 来 评估 系统 的 易 损 性 。 在 19 世纪 60 年 代 贝 尔 实 验 室 
首次 提出 该 方法 以 来 ， 作 为 分 析 系 统 易 损 性 的 主要 方法 FTA 已 经 应 用 在 国防 、 航 天 、 核 物 
理 、 化 学 和 其 他 一 些 高 危 行 业 中 。 


6.1.3 程序 实例 中 的 故障 树 : 基本 模拟 


易 损 性 评估 的 一 个 实例 是 军事 应 用 中 的 生存 性 分 析 。 生 存 性 分 析 是 一 个 非常 广泛 的 研究 
领域 ， 所 以 我 们 只 讨论 枪击 威胁 下 交通 工具 的 易 损 性 这 一 特例 。 射 击 模拟 被 广泛 应 用 于 评估 
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交通 工具 如 何 抵 住 不 同 射击 威胁 。 

现代 射击 模拟 需要 许多 不 同 的 计算 单元 来 完整 模拟 不 同 威胁 下 的 物体 易 损 性 。 射 击 时 间 
混乱 无 序 并 且 十 分 复杂 ， 这 提高 了 对 目标 结果 量化 评估 的 难度 。 一 种 常用 的 方案 是 使 用 致死 
概率 (OO 作为 一 个 指标 。Pk 定义 了 一 个 目标 系统 不 再 能 正常 工作 的 概率 。 

使 用 Pl 指标 可 在 不 同 的 层次 上 测量 易 损 性 。 目 标 整体 (在 本 例 中 即 为 交通 工具 ) 具有 
几 千 个 组 件 。 因 此 系统 也 就 由 这 些 独立 组 件 构成 。 高 层次 系统 定义 了 交通 工具 的 功能 以 及 最 
终 其 在 射击 危险 下 的 生存 性 。 组 件 的 Pi 通过 工程 关系 直接 影响 系统 的 Pk.。 故 障 树 表达 了 这 
些 系统 Pi 的 关系 并 且 量 化 了 射击 事件 下 的 易 损 性 。 

理解 射击 易 损 性 需要 尝试 百 万 其 至 十 亿 量 级 的 轨道 实例 ， 即 可 能 击 中 交通 工具 的 威胁 。 
与 目标 交互 的 每 一 个 威胁 实例 都 是 一 个 唯一 的 事件 ， 它 需要 一 个 唯一 的 故障 树 实例 。 前 面 已 
经 介绍 过 ， 交 通 工具 故障 树 包 含 数 千 个 组 件 ， 并 且 具 有 复杂 的 关系 。 因 此 代码 的 可 扩展 性 是 
故障 树 求解 中 维持 交互 性 的 关键 。 交 互 性 允许 用 户 检 查 目 标的 生存 性 结果 ， 这 可 以 促进 用 户 
的 快速 分 析 和 反馈 。 为 了 在 评估 百 万 (甚至 更 高 ) 量 级 的 大 规模 表达 式 时 依然 可 以 保持 交互 
性 ， 必 须 有 效 地 开发 并 行 性 。 

我 们 将 故障 树 编 译 到 一 种 内 存 编码 ,支持 在 每 个 组 件 Pl 值 集合 上 的 并 行 执行 。 本 章 中 方 
法 主要 关注 SIMD 并 行 性 ， 这 是 因为 应 用 线程 /MPI 体系 结构 在 不 同 的 领域 和 实现 中 并 不 相同 。 

注意 ， 我 们 的 实现 并 不 受 限 于 故障 树 的 语义 和 分 析 。 任 意 数 学 表达 式 可 以 利用 本 章 讨论 
的 同样 原理 来 最 大 化 SIMD 效率 。 射 击 模拟 是 一 个 应 用 大 规模 表达 式 的 实例 。 任 意 应 用 一 个 
表达 式 处 理 大 规模 输入 的 蒙特 卡 洛 模拟 都 可 以 从 本 章 的 设计 方法 中 受益 。 


6.2 ”实例 实现 


图 6-1 展示 了 该 实例 的 实现 ， 从 输入 文件 中 解析 故障 树 ， 编 译 到 指令 数组 ， 最 终 使 用 指 
令 数组 求解 YX 个 组 件 集 的 值 。 





图 6-1 求解 故障 树 的 过 程 


语法 和 解析 结果 

故障 树 实现 的 输入 文件 的 语法 是 一 个 系统 定义 列表 。 系 统 通 过 包含 “与 ”和 “或 " (AND/ 
OR) 操作 符 、 常 量 、 组 件 和 子 系 统 的 表达 式 来 定义 ， 解 析 的 语法 如 下 : 

Expression 2 ([OR. Operand] | [OR_Operand])* 

OR. Operand Z([AND Operand] & [AND Operand])* 

AND. Operand- [Name, Constant, Expression] 


aM Ags 


解析 输入 是 十 分 简单 的 ， 特 别 是 利用 已 有 的 工具 ， 例 如 yacc 和 lex。 然 而 ， 输 入 解析 代码 的 
细 记 超出 了 本 章 的 范围 ， 并 且 也 与 高 效 求解 无 关 。 有 兴趣 的 读者 可 以 分 析 该 实例 的 输入 解析 部 分 。 

解析 输入 数据 的 结果 是 生成 一 个 解析 树 ， 该 树 包 含 不 同类 型 的 节点 ， 图 6-2 展示 了 定义 
的 节点 类 型 。 


struct ftNode 


NodeType type; // Enum representing type 
//(ex: ‘op’, ‘comp’, ‘end’, etc) 
std::string text; 
union { 
struct { 
int index; 
} name; 


struct { 

float value; 
} constant; 
struct { 

ftNode *lhs; 

ftNode *rhs; 





图 6-2 节操 类 包括 了 市 点 类 型 、 文 件 解析 文本 以 及 与 节点 类 型 相关 的 信息 集 


名 字 节 点 是 输入 文件 包含 的 标识 符 。 名 字 池 【〈 即 一 组 组 件 名 字 和 系统 名 字 ) 将 会 在 输入 
解析 的 同时 维护 。 除 非 显 式 地 赋 子 一 个 表达 式 ， 否 则 名 字 均 为 组 件 ( 叶 市 点 )。 在 构造 完 解 
析 树 后 ， 该 树 将 会 被 遍历 并 将 名 字 节 点 根据 组 件 和 系统 名 字 池 而 转变 为 组 件 或 系统 节点 。 在 
这 一 步 完成 之 后 ， 树 将 被 再 次 遍历 并 将 组 件 赋 子 指 向 输入 状态 值 的 索引 。 一 旦 组 件 索引 确 
定 ， 这 棵 树 将 会 用 于 评 佑 数组 的 构造 。 

构造 评估 数组 

构造 一 个 评 佑 数组 或 者 一 个 代码 数组 的 目标 是 建造 一 组 指令 集 ， 它 可 以 用 来 计算 给 定 输入 
组 件 值 后 一 个 给 定 系 统 的 值 。 该 实例 实现 使 用 反 向 波兰 符号 (RPN) 来 构造 系统 评估 操作 。 我 
们 选择 使 用 RPN 是 由 于 以 RPN 形式 评估 指令 的 算法 十 分 简洁 。 图 6-3 展示 了 一 个 简单 的 例子 。 


SystemA = ComponentO | Component1 





图 6-3 a) 四 棵 树 的 输入 组 件 状态 : 每 个 元 素 内 的 数据 表示 该 组 件 的 索引 b) 系统 A 的 RPN 代码 数组 


构造 代码 数组 需要 遍历 解析 树 。 我 们 使 用 访问 者 模式 来 遍历 每 个 树 节 点 ， 并 逐步 增加 到 
评估 数组 的 尾部 。 求 RPN 表达 式 的 一 个 需求 是 每 次 求解 有 足够 的 栈 空 间 。 在 生成 求解 代码 
的 同时 ， 最 大 的 栈 大 小 数据 会 得 以 维护 以 保障 评估 栈 的 内 存 空间 。 更 多 细节 可 以 参考 http:/ 
lotsofcores.com 网 站 上 的 代码 。 

需要 注意 的 是 ， 这 一 部 分 的 计算 相对 而 言 不 太 耗 时 。 在 一 个 可 视 和 交互 系统 中 ， 代 码 数 
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组 可 以 快速 修改 和 重建 ， 在 程序 中 允许 可 变性 将 从 一 个 新 选择 的 表达 式 给 出 一 个 立即 的 反馈 。 
评估 表达 式 数组 
系统 评估 是 我 们 将 要 进行 优化 的 主要 的 计算 部 分 ， 这 是 由 于 这 部 分 计算 被 徐 人 到 一 个 上 一 
层 模拟 代码 中 。 前 面 已 经 介绍 ， 我 们 的 目标 是 评估 棵 树 ， 评 估 系 统 是 共享 的 。 因 此 ， 构 造 的 
代码 数组 将 会 在 所 有 评估 实例 中 共享 。 系 统 评估 假设 M*N 个 组 件 值 已 经 在 上 一 层 模 拟 中 计算 
完成 ， 这 里 M 是 系统 中 待 评估 的 组 件数 量 ,，N 是 将 要 被 评估 的 树 的 实例 数量 。 图 6-4 中 的 功能 
对 于 每 个 故障 树 实例 都 需要 ， 在 每 个 代码 数组 的 项 上 循环 并 根据 每 个 指令 的 操作 符 进行 计算 。 


void ftEvaluator: :evaluateCode (int *code, const int 
numEvaluations, int evaluation, float *compVals, 
float *stack, ftStatus *status) 


int Sp; // stack position 

int index; // system/component index 

float lvalue; // cache for left value (stack[spl) 
float rvalue; // cache for right value (stack[sp-«1]) 


*status - GoodStatus; 
Sp - -1; 
int pc z 0; 
for (;;) { 
switch (code[pc««]) { 
case CompType: 
index = code [pc++] ; 
stack[++sp] = compVals[(numEvaluations * 
index) + evaluation] ; 
break; 
case ConstType: 
// push constant value in next code word on 
// stack as float 
stack[++sp] = *((float *) &code [pc++]); 


break; 
case AndType: 
rvalue = stack[sp--]; 
lvalue = stack[sp] ; 
if (lvalue != 0.0f) { 
stack[sp] = lvalue * rvalue; 


break; 
case OrType: // assumes statistical independence 
rvalue = stack[sp--]; 
lvalue = stack [sp]; 
stack[sp] = lvalue + rvalue - 
(lvalue * rvalue); 
break; 
case EndType: 
// end of code, check stack pointer 
// and return 
if (sp != 0) { 
*status = StackErrStatus; 


return; // exit for loop 
default: 

*status = BadCodeStatus; 

return; // exit for loop 





图 6-4 ”代码 执行 的 C++ 实现 : 这 个 版 本 对 于 待 评估 系统 的 每 个 评估 实例 都 需要 


图 6-4 中 的 代码 在 每 一 个 输入 组 件 值 上 实现 了 AND(P(A)*P(B)) 和 OR(P(A)+P(B)-P(A)* 
P(B)) 操作 。 树 的 每 次 评估 的 状态 值 都 保存 在 一 个 数组 中 ， 以 便 进 行 错误 检查 。 在 代码 数组 
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执行 后 ， 最 终 的 系统 值 位 于 每 个 评估 栈 的 最 上 端 。 

使 用 ISPC 进行 向 量化 

系统 评估 的 实现 十 分 易于 理解 ， 但 是 并 没有 利用 到 SIMD 执行 单元 。 由 于 每 个 故障 树 评估 
相同 的 系统 ， 这 属于 数据 并 行 操 作 ， 因 此 这 是 一 个 应 用 SIMD 硬件 的 完美 案例 。 一 个 编写 显 式 
SIMD 代码 的 方式 是 使 用 内 置 清 数 。 虽 然 这 种 方式 对 于 我 们 的 小 示例 而 言 十 分 简洁 ,但 是 在 实际 
代码 中 这 将 会 给 开发 人 员 刘 来 维护 负担 ， 他 们 需要 在 SSE4.x、AVX/AVX2、IMCI (FEU MEE L-). 
AVX-512 以 及 其 他 更 多 指令 集 上 进行 维护 。 除 了 这 种 费力 的 维护 开销 之 外 ， 基 于 内 置 函数 的 代码 
不 具有 可 读 性 因此 难以 理解 。 为 了 减轻 这 一 问题 ,我们 使 用 开源 的 Intel SPMD 程序 编译 (ISPC) 
来 实现 向 量化 。 图 6-5 中 展示 的 代码 实现 了 前 面 C++ 代码 的 相同 功能 ， 但 这 里 利用 了 ISPC, 


inline void evaluateCode (uniform int *uniform code, 
uniform int numEvaluations, 
varying int evaluation, 
uniform float *compVals, 
uniform float *stack, 
uniform int8  *status) 


uniform int sp; // stack position 

uniform int index; // system/component index 
varying float lvalue; // cache for left value 
varying float rvalue; // cache for right value 


*status - GoodStatus; 
Sp 三 -1; 
uniform int pc - 0; 
while (true) { 
switch (code[pc++]) { 
case CompType: 
index = code [pc++] ; 
stack[++sp] = compVals[(numEvaluations * 
index) + evaluation]; 
break; 
case ConstType: 
// push constant value in next code word 
// on stack as float 
stack[++sp] = *((float *) &code [pc++] ) ; 
break; 
case AndType: 
rvalue = stack[sp--]; 
lvalue = stack [sp]; 
if (lvalue != 0.0£) { 
stack[sp] = lvalue * rvalue; 


break; 
case OrType: // assumes statistical independence 
rvalue stack [sp--]; 
lvalue stack [sp] ; 
stack [sp] = lvalue + Value - 
(lvalue * rvalue); 


break; 
case EndType: 
// end of code, check sp and return 
if (sp != 0) { 
*status - StackErrStatus; 


return; // exit for loop 
default: 

*status - BadCodeStatus; 

return; // exit for loop 





图 6-5 未 优化 的 ISPC 评估 : 这 个 简单 版 本 直接 将 C++ 版 本 转换 为 ISPC 
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} 


export void evaluate(const uniform int sectionStart, 
const uniform int sectionEnd, 
uniform int numEvals, 
uniform int compCount, 
uniform int *uniform code, 


uniform float 
uniform float 
const uniform 
uniform float 


*uniform compVals, 
*uniform stack, 
int stackSize, 
*uniform results, 


uniform int8  *uniform status) 
const uniform int end - sectionEnd « numEvals ? 
sectionEnd : numEvals; 
foreach (i = sectionStart ... end) { 
evaluateCode(code, numEvals, i, compVals, 
stack + i * stackSize), 
status + i); 


if (status[i] == GoodStatus) { 
results[i] = stack[i*stackSize]; 





图 6-5 (£x) 


evaluateCode() PA Zi XA ISPC 实现 基本 上 与 C++ 实现 一 致 。 唯 一 的 区 别 是 ISPC 5| 
入 的 用 来 指定 哪些 变量 是 ISPC 间 统 一 的 声明 。 除 此 之 外 ， 调 用 evaluateCode() 函数 的 评估 
PR ZA tH, Æ ISPC 中 定义 以 便利 用 ISPC 的 foreach 构件 。 使 用 foreach 代替 标准 C/C++ 中 的 
for 可 以 使 得 编译 器 更 好 地 将 循环 映射 到 SIMD 通道 中 并 行 执行 。 利 用 这 个 ISPC 版 本 的 代 
码 ， 相 对 于 C++ 版 本 ， 我 们 可 以 得 到 1.57 倍 的 加 速 比 。 虽 然 这 里 得 到 了 性 能 提升 ， 但 是 这 
也 表明 了 没有 更 好 地 利用 SIMD, HAF, ISPC 不 能 完全 利用 SIMD 计算 能 力 ， 这 是 因为 
它 不 能 假设 switch 语句 始终 是 一 致 遍历 的 。 

前 两 个 实现 在 每 个 评估 的 所 有 的 指令 中 进行 迭代 。 重 构 这 种 计算 方式 ， 可 以 在 每 个 指令 上 和 
代 计 算 所 有 的 评估 ， 这 可 以 帮助 改进 向 量化 。 图 6-6 的 代码 实现 了 在 每 个 指令 上 迭代 所 有 评估 。 


uniform 
uniform 
uniform 
uniform 
const uniform 
const uniform 
uniform float 
uniform float 
uniform float 
uniform int8 


inline void evaluateCode(const 
const 
const 
const 


size t 
size t 


secStart, 
secEnd, 
size t numEvals, 
size t numComps, 
int code[], 

int stackSize, 
*stack, 

*uniform compVals, 
*uniform results, 
*uniform status) 


uniform 
uniform 
uniform 
uniform 


// stack position 
// system/component index 
0; // program counter (code index) 


int Sp; 
int index; 
int pc = 
bool stop; // flag to break out of eval loop 
float lvalues[SECTION SIZE]; 

float rvalues[SECTION SIZE]; 


uniform 
uniform 


SP = 
pc 0; 





图 6-6 优化 的 ISPC 评估 
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stop = false; 


// Initialize evaluation status 
foreach (i = sectionStart ... sectionEnd) { 
status[i] = GoodStatus; 


cwhile (true) { 
switch (code[pc++]) { 
case CompType: 
index = code [pc++] ; 
**Sp; 


foreach (i - sectionStart ... sectionEnd) ( 
stack[(stackSize*sp)+i] = 
compVals [ (numEvaluations* index) +i] ; 
break; 
case ConstType: 
++SDp; 
foreach (i = sectionStart ... sectionEnd) { 
stack [(stackSize*sp)+i] = *((float *) 
&code [pc] ) ; 
} 
PpC++; 
break; 
case AndType: 
foreach (i = sectionStart ... sectionEnd) { 
rvalues[i-sectionStart] = 
stack[(stackSize*sp) +i] ; 
lvalues[i-sectionStart] = 
stack [(stackSize* (sp-1) )+i]; 
cif (lvalues[i-sectionStart] != 0.0f) { 
stack [(stackSize*(sp-1))+1i] = 
lvalues[i-sectionStart] * 
rvalues [i-sectionStart] ; 
} 
} 
sp--; 
break; 
case OrType: // assumes statistical independence 
foreach (i = sectionStart ... sectionEnd) { 
rvalues[i-sectionStart] = 
stack [(stackSize*sp) +i]; 
lvalues[i-sectionStart] = 
stack [(stackSize* (sp-1)) +i]; 
stack[sp-1] = lvalues[i-sectionStart] + 
rvalues[i-sectionStart] - 
lvalues[i-sectionStart] * 
rvalues [i-sectionStart]; 


} 
Sp--; 
break; 
case EndType: 
foreach (i = sectionStart ... sectionEnd) { 
cif (sp != 0) { 
status[i] = StackErrStatus; 
} else { 
results[i] = stack[0+i]; 


} 


stop = true; // exit while loop 
break; 
default: 


foreach (i = sectionStart ... sectionEnd) 
status[i] = BadCodeStatus; 


stop = true; // exit while loop 
break; 


图 6-6 (5) 
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cif (stop) break; 


) 

export void evaluate(const uniform size t sectionStart, 
const uniform size t sectionEnd, 
const uniform size t numEvals, 
const uniform size t compCount, 
const uniform int code[], 
uniform float *uniform compVals, 


uniform float *uniform stack, 
const uniform int stackSize, 
uniform float *uniform results, 
í uniform int8 *uniform status) 
const uniform int end = sectionEnd < numEvals ? 
sectionEnd : numEvals; 
evaluateCode(sectionStart, end, numEvals, compCount, 
code, stackSize, stack, compVals, 
results, status); 





图 6-6 (5) 


注意 ， 图 6-6 中 的 一 般 形式 是 在 代码 数组 中 的 每 个 指令 的 所 有 评估 上 使 用 ISPC 的 
foreach (例如 ，switch 语句 )。 这 就 需要 一 个 存储 左 值 和 右 值 的 本 地 缓冲 区 ， 而 不 是 使 用 一 
个 可 变 的 左 值 和 右 什 变量。 缓冲 区 的 大 小 是 段 大 小 ， 这 可 以 降低 数组 的 空间 需求 ， 并 且 支 持 
调用 evaluate) 函数 为 线程 安全 的 。 由 于 这 里 的 foreach 循环 更 为 紧密 ， 因 此 ISPC 能 分 析出 
如 何 更 好 地 进行 向 量化 。 

除了 通过 ISPC 实现 的 更 好 的 向 量化 代码 生成 之 外 ,我们 对 初始 组 件数 值 使 用 对 齐 的 内 
存 布局 而 不 是 有 间隔 的 布局 。 这 一 点 在 避免 scatter/gather 内 存 访问 时 特别 重要 。 处 理 器 和 协 
处 理 需 向 量 读 写 指令 在 整个 向 量 可 以 直接 获取 和 写 人 时 变 得 更 为 高 效 。 这 种 布局 通过 两 种 代 
码 特 征 来 实现 。 首 先 ， 我 们 利用 独立 数据 组 件 的 数组 ， 而 不 是 包含 每 个 数据 组 件 的 结构 数组 
(AOS)。 如 果 所 有 的 参数 数组 在 evaluate() 和 evaluateCode() KCF, EHH% (SOA) 
而 不 是 结构 数组 。 除 了 使 用 数组 结构 布局 ， 我 们 利用 组 件 索引 而 不 是 评估 索引 打包 每 个 元 
素 ， 从 而 对 齐 了 组 件 状 态 元 素 。 当 评估 共享 相同 代码 数组 的 每 个 实例 集 时 ， 所 有 单独 的 组 件 
索引 将 会 被 访问 。 内 存 中 连续 的 组 件 索 引 值 避免 了 gather 操作 ， 如 图 6-7 所 示 。 
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SIMD 向 量 : NEMUS UM" 
b) 


图 6-7 内 存 布局 : a) 间隔 : 在 评 佑 时 需要 重组 元 素 ， 导 致 一 个 gather 操作 ， 它 需要 四 
次 访问 操作 。b) 对 齐 : 元 素 通过 组 件 索引 组 织 ， 人 允许 执行 一 个 向 量 读 取 操 作 
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相对 于 第 一 个 ISPC 实现 ， 第 二 个 ISPC 版 本 实现 获得 了 7.9 倍 的 加 速 比 ， 相 对 于 C++ 
实现 ， 快 了 12.7 倍 。 这 里 我 们 利用 单线 程 来 测量 性 能 ， 以 便 显 示 SIMD 的 性 能 提升 。 因 此 ， 
这 个 加 速 比 是 更 优秀 的 SIMD 可 扩展 的 结果 (也 来 自 于 更 好 的 缓存 访问 )。 评 估 树 是 一 种 易 
并 行 操 作 ， 因 此 ， 实 现 一 个 多 线程 的 解决 方案 十 分 简单 。 


6.3 ”其 他 因素 


科学 和 工程 应 用 根据 不 同 的 体系 结构 和 设计 而 不 同 ， 一 些 程序 可 以 被 优化 到 更 高 的 性 
能 。 在 这 个 射击 模拟 实例 中 ， 故 障 树 整体 并 没有 始终 用 于 评估 。 在 实践 中 ， 一 个 输入 文件 包 
含 交 通 工具 的 所 有 系统 和 组 件 关 系 ， 但 是 用 户 经 常会 选择 一 个 没有 包括 所 有 组 件 的 系统 。 通 
过 利用 一 个 压缩 的 组 件 集 ， 可 以 在 评估 故障 树 时 节约 可 观 的 内 存 容 量 。 这 可 以 通过 在 处 理 最 
初 组 件数 值 时 ， 从 全 局 组 件 索 引 (所 有 组 件 ) 到 压缩 组 件 索引 (与 特定 系统 相关 的 组 件 ) 的 
转化 来 实现 。 在 进行 评估 之 前 执行 这 个 转变 操作 可 以 节约 评估 时 每 个 组 件 查找 的 索引 转变 开 
销 。 处 理 输入 表达 式 的 子 集 的 应 用 程序 利用 这 种 内 存 压 缩 方 式 将 会 得 到 性 能 提升 。 本 章 的 示 
例 代 码 使 用 这 种 优化 。 

另 一 个 优化 是 组 织 计算 为 大 规模 多 线程 程序 。 多 核 处 理 咒 和 众 核 协 处 理 器 允许 多 线程 程序 
独立 运行 。 然 而 ， 每 个 线程 至 少 要 处 理 SIMD 指令 宽度 大 小 的 数据 子 集 。 这 样 在 包含 16 位 宽 的 
VF x3 [8] BEA Intel Xeon Phi 协 处 理 器 上 的 一 个 评估 包 至 少 包含 16 个 评估 ， 并 且 需 要 保持 前 一 节 
讨论 的 数据 布局 。 执 行 评 估 包 的 线程 可 以 独立 地 到 达 系 统 评估 阶段 并 保持 最 大 的 SIMD 效率 。 

另 一 个 值得 注意 的 是 ， 本 章 中 讨论 的 SIMD 优化 技术 可 以 应 用 到 任意 SIMD 硬件 体系 结 
构 中 ,例如 GPU fll ARM NEON CPU。 本 章 中 的 射击 模拟 代码 首先 在 开源 的 可 视 化 模拟 实 
Kr (VSL) 框架 中 利用 NVIDIA 的 CUDA GPU 环境 实现 。 


6.4 总 结 


ARFERAI OMERE ERJ SIMD 硬件 发 展 支 持 许多 科学 和 工程 应 用 达到 交互 性 的 能 力 。 这 
些 应 用 中 的 大 规模 表达 式 也 需要 SIMD 并 行 化 。 蒙 特 卡 洛 模 拟 是 可 以 有 效 利 用 SIMD 硬件 
并 行 的 一 类 模拟 。 我 们 在 本 章 中 学 习 了 作为 射击 模拟 中 大 规模 表达 式 的 故障 树 求解 可 以 通过 
ISPC 有 效 地 利用 SIMD. 

我 们 的 示例 实现 解析 了 输入 故障 树 ， 生 成 了 评估 指令 数组 ， 并 利用 SIMD 并 行 性 执行 这 
些 数组 。 我 们 考虑 了 最 终 评 估 代 码 中 可 以 改进 计算 性 能 的 两 个 特征 。 首 先 ， 重 组 ISPC 代码 
以 利用 更 小 的 循环 ， 这 可 以 帮助 ISPC 编译 器 更 好 地 生成 回 量化 代码 。 其 次 ， 利 用 对 齐 的 数 
组 结构 数据 布局 方式 可 以 减少 回 量 的 scatter/gather 访 存 操作 。 


6.5 更 多 信息 
与 本 草 内 容 相 关 的 更 多 的 阅读 材料 如 下 : 
e 一 般 故 障 树 分 析 信 息 : en.wikipedia.org/wiki/Fault tree analysis. 
e 利用 GPU 的 复杂 故障 树 分 析 : Aghassi,H.,Aghassi,F,2013.Fault tree analysis speedup 
with gpu parallel computing.Int. J. Comput. Inf. Syst. Indust. Manag. Appl. 5,106-114. 
e AXK ISPC 的 更 多 信息 可 参考 ispc.github.io。 
e VSL 由 美国 Army Reaserch Laboratory 开发 。 更 多 项 目 信息 和 代码 可 参考 vissimlab.org。 
e 本 章 和 其 他 章节 的 代码 可 在 从 lotsofcores.com Mik FAX. 
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随 着 大 规模 并 行 协 处 理 器 普遍 应 用 于 视频 、 音 频 以 及 社交 媒体 等 海量 数据 ， 人 们 对 深度 学 
习 数 值 优化 算法 的 研究 热情 正在 复苏 。 各 种 实际 应 用 的 经 济 价值 是 使 用 这 些 算法 的 驱动 力 ， 这 
些 应 用 包括 更 新 或 更 强大 的 互联 网 搜索 、 基 于 复杂 实时 模式 认 知 的 无 人 驾驶 汽车 以 及 增强 现 
实 工作 流 等 。 在 生产 环境 的 实时 机 器 学 习 和 数值 优化 问题 上 ， 使 用 右 侧 并 行 映 射 ， 单 一 Intel 
Xeon Phi 协 处 理 器 在 持续 混合 型 单 双 精 度 性 能 表现 上 可 以 超过 每 秒 亿 万 次 浮 点 运算 ( TF/s)。 十 
分 有 趣 的 是 ， 在 不 依赖 于 某 些 优化 库 的 情况 下 (比如 Intel 数学 内 核 库 )， 此 种 性 能 表现 也 是 可 
以 在 用 户 自行 开发 的 代码 上 实现 的 。 由 此 证 明了 非 Intel 之 流 的 “普通 ”程序 员 经 过 代码 编译 也 
可 以 写 出 高 性 能 的 应 用 程序 。 通 过 利用 消息 传递 接口 协调 数 千 Intel 协 处 理 需 的 计算 ， 可 以 达 
到 近 线 性 可 扩展 和 千 万 亿 次 的 计算 性 能 。 例 如 本 章 将 讨论 的 大 规模 并 行 映射 及 相关 代码 在 平均 
持续 混合 精度 训练 中 可 以 达到 每 秒 2.2 千 万 亿 次 (PF/s) 计算 。 该 实验 是 在 TACC (德州 高 级 计 
算 中 心 ) Stampede 超级 计算 机 提供 的 3000 个 intel Xeon Phi 协 处 理 器 上 进行 的 。 高 性 能 以 及 大 
容量 内 存 是 Intel Xeon Phi 协 处 理 需 家 族 的 突出 优点 。Intel Xeon Phi 协 处 理 需 家 族 因 此 成 为 海 
量 数据 训练 方面 的 理想 平台 ,尤其 可 以 用 于 解决 大 数据 相关 的 复杂 问题 以 及 多 维度 模式 识别 。 


7.1 拟 合 目标 函数 


数学 建 模 是 应 用 数学 分 文 之 一 ， 它 对 现实 进行 抽象 ， 可 用 于 分 析 和 预测 。 数 据 驱 动 的 
数值 模型 一 般 可 以 通过 计算 机 实现 ， 从 而 使 它 可 以 成 为 有 用 的 分 析 和 散 入 式 系统 工具 。 具 体 
地 ， 通 过 暗含 神经 网 络 推断 的 函数 有 预测 功能 ， 意 味 着 它 可 以 在 一 个 时 间 序 列 中 正确 地 预测 
未 来 值 ， 执 行 分 类 任务 ， 处 理 信 号 ， 以 及 对 机 器 人 以 及 实时 系统 中 的 复杂 和 不 可 预测 的 外 界 
刺激 的 应 对 和 适应 。 具 体 请 参考 Duda 和 Hart, LK Farber 和 Lapedes 发 表 的 相关 文章 ， 这 
些 文章 已 在 7.8 节 注 明 。 

数据 驱动 模型 拟 合 可 以 理解 为 旺 数 优化 的 一 种 形式 ， 它 对 一 系列 模型 参数 进行 调整 ， 从 
而 令 该 模型 以 最 小 的 误差 程度 适用 于 某 些 数 据 集合 。 上 面 的 误差 由 一 个 目标 函数 所 确定 。 该 消 
数 有 时 称 为 代价 函数 ， 可 用 来 评估 对 于 给 定 的 一 系列 参数 ， 模 型 与 数据 的 适应 程度 (图 7-1 )。 


Error = func (Pp, Pi» ..., Ph) 
图 7-1 目标 项 数 
最 小 二 乘法 (LMS) 的 目标 函数 经 常用 于 将 一 组 的 个 观测 数据 点 拟 合 为 一 个 模型 ， 该 
模型 常 由 曲线 或 曲面 来 表示 。 图 7-2 中 定义 的 最 小 二 乘法 误差 总 是 正 数 ， 这 意味 着 一 个 最 住 
拟 合 误差 应 该 为 0。 由 于 数值 精度 问题 、 噪 声 数 据 和 其 他 挑战 性 问题 ， 参 数 化 模型 很 少 实现 
零 误 差 。 通 和 常 ， 用 于 确定 模型 参数 的 数值 优化 技术 会 求 出 局 部 最 小 值 ， 或 者 求 出 代价 函数 的 
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低 点 ， 而 优化 算法 总 也 绝 不 会 脱离 最 小 值 和 最 低 点 。 最 佳 拟 合 或 者 全 局 最 小 值 不 是 一 定 可 以 
求 出 的 ， 但 是 最 小 二 乘法 目标 函数 的 误差 值 可 以 作为 衡量 模型 和 数据 匹配 程度 的 手段 。 

机 器 学 习 和 数值 优化 技术 在 各 行 各 业 以 及 科研 中 的 广泛 使 用 表明 ， 由 于 数据 量 的 大 小 、 复 
杂 度 、 噪 声 和 其 他 甚至 涉及 局 部 最 小 化 因素 的 困扰 ， 基 于 经 验 确 定 参数 的 模型 (如 线性 回归 、 
非 线性 回归 、 神 经 网 络 等 ) 往往 能 提供 “足够 好 ”的 解决 方案 ， 有 时 甚至 是 唯一 的 可 行 方法 。 

基于 人 工 神经 网 络 (ANN) 的 训练 可 以 表示 为 一 个 函数 优化 问题 ， 它 尝试 确定 将 训练 数 
据 集 误差 最 小 化 的 最 优 网 络 参 数 (例如 ， 模 型 参数 或 内 部 网 络 的 权 值 和 偏差 )。 训 练 过 程 中 
计算 代价 是 高 易 的 ， 因 为 需要 使 用 不 同 的 参数 集合 来 重复 计算 目标 果 数 。 由 于 数据 集合 中 每 
个 样本 的 误差 都 需要 计算 ， 所 以 每 个 目标 函数 评价 的 运行 时 间 为 O ( Noaram X Naas)。 在 大 多 
数 情况 下， 相对 于 训练 数据 的 数量 Naa, BRC BOR Naram 是 较 小 的 ， 从 而 意味 着 总 体 的 运 
行 时 间 主 要 是 由 训练 数据 集 来 决定 的 。 实 际 上 ， 数 据 的 严格 规范 化 相对 于 参数 数量 而 言 是 更 
重要 的 ， 所 以 ANN 是 不 记忆 训练 数据 集 的 。 这 就 是 为 什么 交叉 验证 数据 集 (例如 ， 包 含 在 
训练 期 间 未 呈现 给 神经 网 络 的 数据 的 独特 例子 的 数据 集 ) 显得 如 此 重要 ， 因 为 交叉 验证 可 以 
检测 ANN 可 以 很 好 地 拟 合 训练 数据 但 是 概括 不 全 的 情况 。 

数据 并 行 目 标 函 数 的 并 行 化 通过 大 规模 并 行 计 算 可 以 显著 减少 运行 时 间 ， 详 见 图 7-3, 
图 中 公式 表明 了 随 着 处 理 器 数量 的 增多 运行 时 间 会 缩短 ， 这 称 为 强 可 扩展 ， 因 为 对 于 给 定 的 
数据 集 ， 运 行 时 间 随 处 理 元 素 个 数 的 增加 而 成 比例 减少 。 


: N quur N 
Error = >. (Known; — Predicted;)? 0 (Fae a) 
t N processors 


图 7-2 误差 差 值 平方 和 图 7-3 一 个 数据 并 行 目 标 孔 数理 想 的 运行 时 间 


大 多 数 数据 并 行 目标 函数 是 浮 点 精度 密集 型 并 适 于 向 量化 的 ， 这 些 特 性 使 得 数据 并 行 
目标 函数 在 所 有 内 核 及 协 处 理 带 的 每 个 单 核 向 量 单元 上 都 可 以 有 效率 地 运行 。 可 扩展 的 并 行 
性 与 高 效 的 向 量化 ， 表 明了 数据 密集 型 机 器 学 习 和 数值 优化 问题 可 以 很 好 地 适应 Intel Xeon 
Phi 协 处 理 家 族 (例如 图 7-4 的 右 下 方 ) 的 高 性 能 结构 。 





图 7-4 Intel Xeon Phi 协 处 理 器 性 能 概要 
(图 片 由 James Reinders Intel 公司 提供 ) 
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本 章 中 的 神经 网 络 训 练 代 码 将 会 使 用 我 研发 的 大 规模 并 行 映 射 ， 是 在 20 世纪 80 年 代 在 
美国 洛斯 阿拉 葛 斯 国家 实验 室 和 圣 菲 研究 所 研发 的 。Thearling 调研 了 各 种 并 行 化 神经 网 络 
映射 ， 其 中 包含 我 的 “Faber” 映 射 (调研 的 链接 见 7.8 35). 

e 不 可 行 实 现 : 神经 网 络 中 的 每 个 节点 都 映射 到 一 个 处 理 器 ， 但 对 于 大 规模 并 行 ， 这 
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e 改进 方法 : 张 某 提出 了 一 种 改进 方法 ， 他 和 他 的 同事 仔细 地 将 多 重 网 络 节 点 映射 到 

同一 个 处 理 右 。 这 种 方法 可 以 减少 通信 消耗 并 能 够 更 加 高 效 地 计算 网 络 节点 的 输出 。 

e 除了 其 他 大 规模 并 行 系统 之 外 ，Faber 映射 还 可 以 在 单个 协 处 理 器 和 协 处 理 器 集合 上 

有 效率 地 运行 ， 如 图 7-5 所 示 。 根 据 Thearling 的 调研 结果 ， 这 个 方法 是 迄今 为 止 可 
以 达到 的 最 快 性 能 。 自 从 20 世纪 90 年 代 ， 该 方法 已 经 成 为 了 世界 范围 内 的 一 种 稼 
用 方法 。 


REHE (Powell, HE, 其 他 ) 





图 7-5 ”一般 映射 : BER = func (P1,P2,--- Pn) 


图 7-5 中 的 标 有 “最 优化 方法 ”文本 框 表明 许多 通用 的 、 基 于 库 的 数值 优化 库 可 以 通过 
大 规模 并 行 映射 利用 。《 Numerical Recipes 》 这 本 书 中 涵盖 了 多 种 数值 优化 算法 ， 是 一 本 值 
得 推荐 的 学 习 资 料 。 

本 章 中 的 所 有 结果 都 是 使 用 当前 较为 流行 的 并 且 是 免费 可 用 的 开源 nolpt 优化 库 来 完成 
的 。nolpt 优化 库 是 Johoson 写 的 ， 可 以 通过 网 络 下 载 ， 下 载 地 址 为 http://ab-initio.mit.edu/ 
nlopt。 当 然 ， 读 者 也 可 以 使 用 众多 免费 数字 许可 工具 包 代替 nolpt， 包 括 SLATEC NAG OX 
值 算 法 组 )、MINPACK GNU 的 科学 库 、Matlab Octave, scipy, gnuplot, SAS, Maple, 
Mathematica 等 。 

在 图 7-6 中 展示 了 Faber 映射 在 TACC Stampede 超级 计算 机 提供 的 3000 个 协 处 理 器 
上 的 近 线 性 扩展 表现 。 使 用 TACC Ranger 超级 计算 机 提供 的 60000 个 处 理 器 内 核 ， 美 
ORNL (橡树 岭 国 家 实验 室 ) Titan 超级 计算 机 提供 的 16384 个 GPU, LA Thinking Machines 
CM-2 上 的 64000 个 处 理 器 内 核 ， 连同 20 世纪 80 年 代 以 来 的 许多 其 他 超级 计算 机 和 集群 ， 
也 可 以 得 到 类 似 的 构图 一 一 它们 的 共性 是 用 眼睛 看 上 去 是 线性 的 。 
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TACC Stampede 超 级 计算 机 上 主 成 分 分 析 可 扩展 性 
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图 7-6 在 TACC Stampede 超级 计算 机 上 扩展 到 3000 个 Intel Xeon Phi 协 处 理 需 


以 上 的 近 线 性 扩展 的 映射 是 以 下 1 ~ 3 步 的 运行 结果 : 

e 第 1 步 : 把 参数 广播 到 所 有 处 理 右 。 通 常 ，MPI 的 全 局 广播 是 非常 高 效 的 ， 并 且 具 
有 恒定 的 运行 时 间 开 销 。 广 播 数据 的 时 间 开 销 通 常 受 限于 网 络 互联 硬件 的 带宽 。 

e 第 2 步 : 每 个 MPI 节 点 独立 计算 存 于 本 地 内 存 中 的 数据 子 集 的 偏差 .这 意味 着 随 
着 处 理 节 点 的 数量 变化 ， 运 行 时 间 可 以 表现 出 很 强 的 可 扩展 性 。 本 步骤 的 运行 时 
间 是 由 每 个 MPI 节点 处 理 的 数据 量 以 及 单 节 点 的 计算 速度 决定 的 。( 注 : 每 次 计算 
开始 时 ， 每 个 MPI 节点 都 会 加 载 部 分 数据 集 ， 而 且 一 般 会 根据 可 用 网 络 带宽 进行 
扩展 。) 

e 第 3 步 : 在 超大 型 系统 上 ，Faber 映射 的 可 扩展 性 主要 受 归 约 运算 的 运行 时 行为 所 影 
Me), AAR MPI 归 约 运算 需要 的 运行 时 间 为 O(log (Nnodes)), FP. Naodes 为 MPI 节点 


数量 。 实 验 中 ， 网 络 互 连 的 延迟 会 限制 归 约 运算 的 性 能 ， 由 于 部 分 和 中 的 字 节 数量 


是 很 小 的 ， 因 此 通常 每 64 位 的 部 分 和 会 有 8 字 节 。 

经 验 表明 ， 即 使 是 最 大 规模 的 问题 也 可 以 利用 单 精度 (32 位 ) 浮 点 格式 来 存储 参数 和 
数据 ， 但 是 在 上 面 第 2 步 和 第 3 步 中 累积 的 偏差 需要 利用 双 精 度 ( 64 位 ) 来 进行 存储 运算 。 
否则 ， 在 使 用 单 精度 类 型 存储 运算 偏差 时 ， 数 百 万 次 偏差 累加 会 造成 精度 损失 ， 由 此 造成 的 
信息 丢失 可 能 会 导致 优化 算法 陷于 局 部 极 小 值 。 使 用 64 位 双 精 度 累 加 器 来 实现 混合 精度 归 
约 运算 造成 的 运行 时 间 影 响 是 最 小 的 。 

近 线 性 扩展 性 只 能 通过 基于 有 单一 误差 值 而 非 误 差 问 量 的 目标 函数 的 优化 技术 来 实现 。 
一 些 优化 算法 会 利用 一 个 误差 向 量 来 确定 下 一 组 参数 ， 从 而 评价 整个 优化 过 程 。 此 种 方法 的 
缺点 是 误差 向 量 的 大 小 需要 根据 数据 量 的 大 小 进行 扩展 。 在 多 对 一 的 通信 模式 下 运行 优化 算 
法 时 ， 即 使 是 非常 小 的 误差 向 量 也 会 很 快 占 满 MPI 节点 的 网 络 间 连接 或 者 子 系统 内 存 和 处 
理 副 。 因 此 ， 只 有 并 行 运行 并 且 消 除了 误差 向 量 尺度 相 关 问 题 的 基于 误差 向 量 的 优化 算法 才 
能 使 用 此 种 映射 。 


7.2 目标 函数 与 主 成 分 分 析 


神经 网 络 是 一 种 通用 的 计算 方法 ， 理 论 上 它 可 以 学 习 任何 可 计算 函数 。 支 持 上 面 观点 的 
理由 很 简单 ， 因 为 它 可 以 实现 所 有 的 逻辑 门 (例如 ，or、xor、and、not 等 )， 而 恰恰 这 些 逻 
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辑 门 用 于 构建 通用 计算 设备 ， 比 如 通用 计算 机 。 

最 近 ， 神 经 网 络 已 经 成 为 通过 训练 多 层 神经 网 络 的 各 个 层次 进行 深度 学 习 的 一 种 流行 方 
式 。 通 过 定义 隐 层 ， 人 工 神经 网 络 可 以 模拟 其 他 计算 设备 ,创建 复杂 的 数据 内 部 表示 ， 或 者 
实现 特征 提取 。 特 征 提取 指 的 是 数据 突出 特性 或 者 属性 的 识别 ， 以 便于 在 后 续 的 任务 中 用 它 
来 进行 回归 或 者 分 类 。Lapedes 和 我 发 现 只 有 两 个 隐 层 需要 执行 建 模 、 预 测 和 符号 学 习 任 务 。 
尽管 有 两 个 以 上 的 隐藏 层 ， 但 是 聪明 的 人 类 辅助 设计 可 以 创建 利用 更 少 参数 的 更 小 的 网 络 ， 
或 者 用 微调 来 使 复杂 的 深度 学 习 任 务 完成 得 更 好 ， 详 见 Hinton 的 报告 。 

本 章 将 主要 讨论 使 用 多 层 ANN 来 实现 主 成 分 分 析 (PCA) 以 及 非 线 性 主 成 分 分 析 (NPCA). 

PCA 广泛 应 用 于 数据 挖掘 和 数据 分 析 来 减少 数据 集 的 维度 和 提取 数据 集 的 特征 。 主 成 
分 分 析 可 以 通过 使 用 一 组 正 交 直线 来 表示 一 个 数据 集 的 最 大 方差 ， 其 中 每 条 直线 都 由 观测 变 
量 的 加 权 线 性 组 合 所 定义 。 同 样 地 ， 非 线性 主 成 分 分 析 可 以 利用 连续 开放 或 者 封闭 的 曲线 来 
表示 数据 方差 。 圆 即 是 一 个 自我 连接 且 没 有 终点 的 封闭 曲线 的 例子 。 

ANN 的 体系 结构 可 以 通过 数量 受 限 的 线性 隐藏 神经 元 或 者 瓶颈 神经 元 (在 图 7-7 标记 
HB) 来 寻找 数据 集 的 主 成 分 ， 如 图 7-7 所 示 。 类 似 地 ， 当 一 个 
非 线性 算 子 用 于 瓶颈 神经 元 时 ， 图 7-7 中 的 ANN 可 以 用 来 实现 
非 线性 主 成 分 分 析 。 这 些 非 线性 算 子 既 可 以 是 开放 曲线 ， 也 可 
以 是 财 合 曲线 。 

非 线 性 主 成 分 分 析 在 模式 识别 、 生 物 建 模 、 天 气 建 模 和 化 
学 等 众多 具有 挑战 性 问题 的 领域 都 有 广泛 应 用 。 目 前 有 大 量 的 
网 站 、 教 程 和 书籍 都 是 关于 非 线性 主 成 分 分 析 的 。 当 然 ， 直 接 
搜索 “nlpca” 将 会 是 一 个 很 好 的 学 习 起 点 。 

在 训练 期 间 ， 在 图 7-7 中 的 多 层 神经 网 络 通过 输入 训练 
集中 的 每 个 训练 向 量 来 呈现 ， 即 图 底部 的 I 神 经 元 。 实 质 上 ， 
ANN 通过 线性 或 非 线性 的 主 成 分 进行 自我 学 习 。ANN 使 输入 图 77 一 种 多 层 的 PCA 或 
回 量 信息 通过 底部 一 半 神 经 网 络 (从 而 将 每 个 输入 向 量 从 高 维 者 NLPCA 神经 网 络 
空间 降 为 低 维 空间 ， 例 如 从 两 维 降 为 图 7-7 中 的 一 维 )， 并 通过 
顶部 一 半 神 经 网 络 在 输出 神经 元 上 重建 原始 的 高 维 输入 向 量 ， 从 而 使 误差 达到 最 小 化 。 这 
是 一 个 非 监督 学 习 的 例子 ， 因 为 目标 函数 只 基于 训练 集中 的 输入 数据 计算 误差 。( 特 殊 地 ， 
LMS 误差 可 以 通过 对 输入 及 输出 神经 元 的 差 值 进行 减法 及 平方 运算 求 得 。) 另外 ， 当 向 输出 
神经 元 提供 标准 输出 结果 时 ， 即 为 监督 学 习 。 该 标准 输出 结果 反映 了 对 每 一 个 训练 样 例 的 期 
望 输出 或 已 知 输出 ， 这 样 LMS 误差 可 以 通过 对 标准 输出 结果 及 输出 神经 元 的 差 值 进行 减法 
及 平方 运算 求 得 。 


7.3 软件 及 样 例 数 据 


本 章 中 PCA 以 及 PLPCA 样 例 的 完整 代码 以 及 编译 脚本 可 在 github 上 的 farbopt 代码 仓 
库 中 找到 (参考 7.8 节 中 的 ULR)。 

图 7-8 中 的 代码 段 描 述 了 OpenMP 实现 的 func() 函数 ， 该 函数 是 用 于 训练 神经 网 络 的 
LMS 目标 浮 数 ， 可 运行 在 单一 设备 或 跨越 全 部 计算 节点 的 MPI 环境 中 。 可 以 看 出 ， 代 码 实 
现 比较 容易 。 不 考虑 运行 环境 (例如 ， 单 一 协 处 理 絮 或 者 MPI 实现 版 本 )， 以 下 代码 执行 了 
大 部 分 的 计算 工作 。 
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{ 
{ 
err=0.; // initialize error here for offload 


#pragma omp parallel for reduction(+ : err) 


for(int i=0; i < nDeviceExamples; i++) { 


float d=myFunc(i, param, deviceExample, 
nDeviceExamples, NULL) ; 


err += d*d; 





图 7-8 一 种 OpenMP 版 本 的 LMS 数据 并 行 目标 函数 


用 户 提供 的 内 联 函 数 myFunc() 用 来 计算 对 于 训练 数据 集中 特定 样 例 的 模型 误差 ,OpenMP 
编译 器 负责 将 归 约 循环 在 多 个 处 理 器 内 核 上 正确 地 进行 并 行 化 。 程 序 员 负 责 描 述 myFunc() 
函数 ， 这 样 编译 器 会 对 myFuncO 并 行 实例 正确 地 向 量化 ， 以 充分 利用 协 处 理 器 中 每 个 内 核 
的 向 量 单元 。 

A, func) 或 者 myFunc() 的 调用 是 通用 的 ， 即 farbopt 样 例 代码 可 以 用 来 优化 任意 可 
并 行 化 的 目标 消 数 ， 例 如 支持 癌 量 机 、 Pepe 期 望 最 大 化 以 及 其 他 目标 函数 。 

本 章 中 用 到 的 样 例 代码 实现 了 一 个 C 语 言 版 本 的 人 工 神 经 网 络 ， 如 图 7-7 所 示 ， 该 网 
络 会 通过 LMS 进行 训练 。 TAURINE, 可 在 编译 时 为 B 及 G f Ze 76 SUUS TH E RAE 
型 。 可 选项 包括 针对 PCA 分 析 的 线性 操作 符 以 及 几 种 针对 NLPCA 分 析 的 sigmoid 函数 实 
现 。 通 过 使 用 条 件 编 译 ， 首 先 可 以 简化 测试 及 基准 化 分 析 ， 其 次 可 以 使 编译 需 更 好 地 优化 
myFunc() 内 联 函 数 ， 以 充分 利用 协 处 理 嚣 上 的 癌 量 单元 。 

在 ANN 参数 (例如 权重 以 及 神经 元 偏差 ) 的 优化 中 ，LMS 目标 函数 通过 nlopt 优化 库 
调用 。 实 际 nlopt 函数 调用 显示 在 下 面 的 代码 段 中 ,getTime() 函数 返回 总 体 优化 进程 的 时 间 。 
在 func() 函数 中 类 似 的 测试 装置 会 记录 目标 图 数 的 时 间 开 销 ， 通 过 进一步 验证 ， 用 户 可 以 得 
知 LMS 目标 函数 确实 决定 了 应 用 程序 整体 的 运行 时 间 。 

MPI 代码 采用 “ 主 / 从 ”执行 模式 ， 其 中 优化 方法 在 主 计算 节点 上 运行 ， 而 工作 负载 被 划分 
到 从 计算 节点 上 运行 。 为 了 提高 执行 效率 ， 主 计算 节点 也 可 以 作为 从 节点 对 目标 艺 数 进行 评估 。 

在 MPI 从 节点 中 ，MPI 编号 大 于 0 的 节点 在 调用 MPI Init() KUSH startClient() PR 
数 。startClient( 的 代码 如 图 7-9 所 示 。 


void startClient(void * restrict my func data) 


{ 


int op; 


double xFromMPI [N_PARAM] ; 


double partialError,sum; 


for(;;) { 


// loop until the master says I am done - then exit 





图 7-9 MPI 从 节点 代码 
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MPI Bcast(&op, 1, MPI INT, 0, MPI COMM WORLD); 


// receive the op code 


if(op==0) ( // we are done, normal exit 


break; 
} 
// receive the parameters 
MPI Bcast(xFromMPI, N PARAM, MPI DOUBLE, 0, 

MPI COMM WORLD); 

partialError - 

objFunc(N PARAM,  xFromMPI, NULL, my func data); 
MPI Reduce(&partialError, &sum, 1, MPI DOUBLE, 

MPI SUM, 0, MPI COMM WORLD); 
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优化 方法 (一 个 NLOPT 样 例 如 图 7-10 所 示 ) 通过 mpiObjFunc() 实现 ， 该 函数 首先 运 
行 在 主 节 点 上 ， 然 后 执行 MPI 通信 ， 也 执行 部 分 目标 函数 。 代 码 如 图 7-11 所 示 。 


double startTime=getTime () ; 
// initialize error here for offload 
int ret-nlopt optimize(opt, x, &minf); 


printf ("Optimization Time %g\n",getTime()-startTime) ; 





图 7-10 通过 NLOPT 调用 启动 优化 进程 


double mpiObjFunc(unsigned n, const double * restrict x, 
double * restrict grad, 


void * restrict my func data) 


int op; 
double partialError, totalError-0.; 


// Send the master op code 


MPI Bcast(&masterOP, 1, MPI INT, 0, MPI COMM WORLD); 


MPI Bcast((void*) x, N PARAM, MPI DOUBLE, 0, 
MPI COMM WORLD); // Send the parameters 


partialError = objFunc(N PARAM, x, NULL, 


my func data); 
MPI Reduce(&partialError, &totalError, 1, MPI DOUBLE, 
MPI SUM, 0, MPI COMM WORLD); // get the totalError 


return(totalError); 





图 7-11 MPI 主 节点 的 目标 函数 代码 
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7.4 训练 数据 


通过 实验 对 ANN 的 PCA 版 本 (采用 线性 操作 
符 编译 ) 的 可 扩展 性 及 运行 时 间 进 行 测试 ， 测 试 数 
据 集 包含 对 围绕 一 条 直线 呈 雪 茄 形 分 布 的 噪声 数据 
的 3000 万 个 观测 值 ， 噪 声 数 据 的 平均 值 为 0， 方 
差 为 0.1。 对 该 分 布 的 小 规模 抽样 如 图 7-12 所 示 。 

类 似 地 ， 通 过 实验 对 NLPCA 版 本 的 ANN 的 
运行 时 间 进 行 测 试 ， 测 试 数据 为 从 如 图 7-13 所 
定义 的 zl 与 22 的 非 线 性 关系 中 提取 的 3000 万 个 
点 。 为 了 使 ANN 的 训练 过 程 更 有 难度 ， 再 次 引入 
均值 为 0 且 方 差 为 0.1 的 噪声 数据 。 图 7-12 PCA 的 线性 数据 集 样 例 


zi=t+el 
图 7-13 一 种 非 线 性 关系 


一 个 简单 的 sigmoid 函数 x/(1+|x|) 的 代码 实现 如 图 7-14 所 示 ， 该 函数 用 于 对 如 图 7-7 所 
示 的 ANN 中 的 G 及 B 神经 元 进行 非 线 性 转换 。sigmoid 函数 的 主要 优势 是 我 们 可 以 知道 确 
切 的 浮 点 运算 数量 。 尽 管 这 个 简单 的 sigmoid 函数 可 用 于 基准 测试 ， 但 更 好 的 sigmoid 函数 
(例如 tanh()) 以 及 逻辑 图 数 通 常 应 用 在 实际 应 用 中 ， 这 是 由 于 训练 过 程 中 的 参数 优化 可 以 更 
快 地 收敛 到 一 个 好 的 结果 。 








图 7-14 一 个 简单 的 sigmoid 函数 
图 7-15 展示 了 NLPCA 数据 以 及 ANN 模型 预测 结果 。 





7-15 NLPCA 数据 样 例 以 及 ANN 预测 


7.5 运行 时 间 
结果 样 例 程序 的 输出 结果 验证 了 LMS 目标 晒 数 的 运行 时 间 实 际 上 决定 了 应 用 程序 的 运 
行 时 间 (如 图 7-16 所 示 )。 
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© | 模式 | 数据 大 小 | nparam | 占 funco 的 时 间 百分比 ( 96 ) 
83 


Native | 30MB 99.7844 
Offload 


图 7-16 AHL Ra F PCA 以 及 NLPCA 在 func() 函数 中 的 运行 时 间 


— FE] 7-17 展示 的 性 能 结果 可 以 证 明 ， 当 以 本 地 执行 模型 运行 时 ， 单 一 协 处 理 器 执行 性 能 
可 以 超过 每 秒 10 “次 浮 点 运算 TFLOPS。 即 使 最 高 浮 点 运算 速度 及 最 低 浮 点 运算 速度 之 间 的 
差 值 很 大 ， 其 平均 性 能 十 分 接近 所 观测 到 的 最 高 性 能 每 秒 10° 次 浮 点 运算 (GFLOPS ) 。 


[o 
NLPCA 


图 7-17 两 个 输入 的 PCA 以 及 NLPCA ANN 的 浮 点 运算 性 能 


在 印 载 执行 模式 中 ， 即 使 有 将 参数 移动 到 协 处 理 絮 以 及 每 次 调用 func() 函数 时 的 偏差 检 
索 等 开销 ， 还 是 展现 出 很 好 的 浮 点 运算 性 能 。 该 印 载 执 行 模式 下 浮 点 运算 性 能 与 预计 达到 的 
性 能 一 致 ， 其 中 包含 了 当 单 一 计算 节点 中 运行 多 个 协 处 理 需 或 者 通过 MPI 在 多 节点 集群 或 
顶级 的 超级 计算 机 中 运行 时 产生 的 通信 开销 。 当 运行 多 个 设备 时 ， 无 论 协 处 理 器 通过 本 地 模 
式 执行 MPI 程序 还 是 通过 条 载 模式 由 主 处 理 器 间接 调用 ， 通 信 开 销 是 无 法 避免 的 。 在 TACC 
Stampede 超级 计算 机 上 的 运行 结果 如 图 7-4 所 示 ， 其 中 单一 协 处 理 器 通过 印 载 模式 被 主 处 
FEAS EAI MPI 程序 所 访问 。 

farbopt github 代码 库 中 还 包含 了 一 个 基于 Python 的 神经 网 络 生成 器 ， 命 名 为 genFunc. 
py. A wat A] DART ATA] ANN 架构 的 性 能 影响 进行 调研 。 例 如 ， 为 了 计算 相对 于 如 图 
7-7 所 示 染 构 加 载 的 两 个 向 量 长 度 的 误差 ,一 个 拥有 4 个 输入 神经 元 的 神经 网 络 需要 从 内 存 
中 载 人 4 个 浮 点 数据 值 。 通 过 图 7-17 及 图 7-18 中 的 性 能 结果 对 比 可 以 看 出 额外 数据 加 载 带 
来 的 性 能 影响 。 






















模式 


— 






(GF/s) (GF/s) (GF/s) 


PCA 23.8488 822.883 855.79 
PCA 


NLPCA 31.0903 430.143 437.162 
Offload 22.2739 821.65 850.331 
NLPCA Offload 27.3932 427.277 434.41 


图 7-18 ”四 个 输入 的 PCA 以 及 NLPCA ANN 的 浮 点 运算 性 能 


特别 要 注意 的 是 ， 由 于 需要 读 取 4 个 数据 值 而 不 是 两 个 数据 值 所 导致 的 内 存 带 宽 限 制 ， 
PCA 的 性 能 会 下 降 。 与 此 相反 ，NLPCA 计算 的 计算 频 度 更 高 ， 这 意味 着 它 会 花费 更 多 的 时 
间 处 理 向 量 寄存 器 ， 不 是 等 待 从 内 存 中 检索 的 数据 。 在 御 载 模式 及 本 地 模式 下 ， 拥 有 4 个 
输入 神经 元 的 神经 网 络 性 能 均 会 优 于 拥有 两 个 输入 神经 元 的 较 小 神经 网 络 ， 因 此 可 以 说 ， 
NLPCA 的 性 能 受益 于 较 大 神经 网 络 珊 来 的 额外 参数 。 
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7.6 扩展 结果 


在 单一 协 处 理 器 上 基于 训练 数据 集 规模 的 可 扩展 性 如 图 7-19 所 示 ， 并 表明 本 地 模式 下 
的 PCA 代码 在 几 个 较 大 训练 数据 集 上 都 获得 了 超过 每 秒 10 次 浮 点 运算 的 性 能 。 此 外 ， 主 
处 理 需 (12 核 3.3 GHz 的 Intel Xeon X5680 处 理 需 ) 的 性 能 相对 于 协 处 理 需 的 性 能 会 迅速 地 
以 每 秒 10 次 浮 点 运算 级 速率 呈 阶 梯形 显著 降低 。 图 中 的 平 线 表明 处 理 器 受到 资源 的 限制 。 
协 处 理 器 近似 达到 每 秒 10 “次 浮 点 运算 的 渐 近 性 表现 也 表明 在 资源 方面 受到 限制 。 图 中 所 显 
示 的 最 高 性 能 接近 处 理 器 单 精 度 运 算 峰 值 的 S0%。 实 验 结果 表明 内 存 带 宽 很 可 能 是 限制 两 个 
设备 性 能 的 罪魁 祸首 。 
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数据 示例 的 个 数 (单位 : 百 万 ) 


图 7-19 ”数据 集 规 模 可 扩展 性 测试 


正如 前 面 所 讨论 的 , Æ TACC Stampede 超级 计算 机 上 ， 在 3000 个 协 处 理 器 上 通过 MPI 
并 行 训练 一 个 ANN 可 以 到 达 接 近 线 性 的 可 扩展 性 及 每 秒 107 次 浮 点 运算 (PFLOPS) 的 性 能 
(如 图 7-3 所 示 )。 可 以 预测 在 将 来 拥有 数 万 协 处 理 需 的 系统 中 ， 同 样 会 展现 出 接近 线性 的 可 
扩展 性 以 及 每 秒 百 亿 亿 次 浮 点 运算 的 性 能 。 


7.7 总 结 


从 单 设备 每 秒 10“ 次 浮 点 运算 性 能 ， 到 实际 观测 中 的 每 秒 10 次 浮 点 运算 性 能 ， 再 到 未 
来 每 秒 10” 次 浮 点 运算 性 能 ，Intel Xeon Phi 产品 系列 为 研究 及 商业 应 用 打开 了 一 个 新 前 景 ， 
并 将 处 理 需 的 性 价 比 及 性 能 功 耗 比 提升 到 一 个 新 级 别 。X86 Mb HERE LAR Intel Xeon Phi 协 处 
理 硕 达到 高 性 能 的 共同 关键 因素 包括 以 下 两 方面 : 多 处 理 器 间接 近 线性 的 可 扩展 性 ; 每 个 设 
备 中 运行 由 大 规模 并 行 映射 产生 的 繁重 的 向 量化 处 理 负载 。 例 如 ， 在 基于 x86 架构 的 TACC 
Ranger 超级 计算 机 上 ， 这 些 相同 的 应 用 样 例 可 以 扩展 到 60 000 个 处 理 内 核 上 ， 并 获得 每 个 
时 钟 周期 4 个 单 精 度 操作 的 实际 性 能 。 

尽管 训练 过 程 是 计算 密集 型 的 ， 但 是 本 章 阐述 的 内 容 证 明 该 训练 过 程 可 以 很 好 地 映射 到 
大 规模 并 行 系统 中 ， 并 且 最 终 的 参数 化 模型 在 多 种 低 功 耗 以 及 小 内 存 的 设备 上 快速 运行 ， 这 
些 设备 包括 CPU, DSP, FPGA 甚至 ASIC 硬件 。ANN 的 上 述 特征 及 其 学 习 执 行 复杂 模式 认 
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知 、 信 号 处 理 、 分 类 任务 的 能 力 ， 从 一 定 程 度 上 解释 了 为 什么 ANN 会 在 大 规模 互联 网 搜索 
引擎 、 对 处 理 时 间 高 要 求 的 机 融 人 以 及 实时 视觉 应 用 等 应 用 领域 得 到 广泛 应 用 。 

通过 接触 与 使 用 本 章 阐 述 的 概念 以 及 样 例 程序 ， 读 者 可 以 开始 探讨 与 理解 前 馈 神经 网 
络 以 及 递归 神经 网 络 的 学 习 能 力 。 递 归 神 经 网 络 是 一 种 利用 网 络 架 构 中 前 向 以 及 后 向 连接 的 
ANN。 通 过 在 ANN 中 加 入 有 回环 ， 递 归 神 经 网 络 可 以 创建 和 使 用 内 部 存储 器 来 解决 问题 和 
处 理 任意 输入 序列 。 递 归 神 经 网 络 提供 了 非常 高 的 计算 数据 比 〈 即 协 处 理 器 平均 每 字 节 数据 
传输 上 需要 执行 大 量 的 浮 点 算术 操作 )， 这 是 因为 在 神经 网 络 中 需要 进行 正 向 与 反 向 的 迭代 
言 息 传输 。 因 此 ， 弟 归 神 经 网 络 非常 适合 众 核 协 处 理 器 加 速 。 

除 此 之 外 ， 通 过 众 核 协 处 理 嚣 加速， 研究 人 员 可 以 解决 多 项 目标 优化 带 来 的 计算 挑战 。 
这 些 目 标 消 数 在 科学 人 研究、 工程 实践 以 及 日 常生 活 中 都 普遍 存在 ， 但 是 很 难 解决 。 例 如 ， 大 
部 分 的 消费 决策 都 需要 对 成 本 与 效益 进行 权衡 。 类 似 地 ， 工 程 师 利用 经 常会 面 对 承 重 与 强度 
设计 而 来 的 挑战 。 对 于 多 项 目标 函数 ， 权 衡 多 种 相互 冲突 的 目标 意味 着 许多 可 能 的 解决 方 
案 需 要 调研 ， 因 为 每 一 项 相对 于 其 他 项 的 加 权重 要 性 在 不 断 变 化 (例如 ， 某 些 时 候 强度 比 承 
持 现 重要 ， 有 反之 亦 然 )。 这 些 优 化 的 时 间 开 销 很 大 ， 且 受 限 于 局 部 最 优 解 。 然 而 ，Intel Xeon 
Phi 协 处 理 器 以 及 其 他 大 规模 并 行 部 件 提供 了 每 秒 107 次 浮 点 运算 的 性 能 其 至 每 秒 107 次 浮 
点 运算 的 性 能 ， 研 究 人 员 可 以 利用 这 些 计 算 资 源 去 深入 研究 这 些 常 见 且 重要 的 但 计算 量 大 的 
优化 问题 。 


7.8 更 多 信息 


e Duda,R.,Hart,P. E.,Stork,D.G.,2001. Pattern Classification,second ed. Wiley. 
Farber,R.,2011. CUDA Application Design and Development. Morgan Kaufmann. 
Lapedes,A.S.,Farber,R.,1987. How neural networks work. Proceeding of IEEE Denver- 
Conference on Neural Netorks. Denver: IEEE. 


e NLPCA:www.cs.toronto.edu/-hinton/ and http://nlpca.org. 


Johnson, S.G.,2014. The NLopt nonlinear-optimization package. http://ab-initio.mit.edu/ 
nlopt. 

github 上 的 farbopty JE, https://github.com/rmfarber/farbopt. 

开源 nlopt EJE , http://ab-initio.mit.edu/nlopt.Thearling, Massively Parallel Architectures 
and Algorithms for Time Series Analysis,http://www.thearling.com/text/csss93.htm 或 者 
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为 了 在 节能 的 方式 下 拥有 高 计算 能 力 ， 很 多 现代 微 处 理 器 依赖 于 单 指 令 多 数据 流 
(SIMD) 的 执行 方式 。 这 些微 处 理 器 (包括 被 最 新 的 Intel Xeon 处 理 器 和 Intel Xeon Phi 协 处 
理 器 所 使 用 的 微 处 理 器 ) 是 主要 为 数据 在 内 存 中 连续 排列 所 优化 的 。 不 过 ， 这 些微 处 理 器 通 
过 聚集 和 分 散 操 作 ， 使 得 数据 在 内 存 中 不 连续 存放 的 时 候 ， 也 能 支持 SIMD 的 执行 方式 。 

如 何 执行 聚集 和 分 散 操 作 是 特定 于 平台 的 ， 有 时 是 在 软件 中 发 生 的 ， 有 时 利用 专门 的 硬 
件 指令 。 但 是 它们 的 功能 总 是 一 样 的 : 一 个 聚集 操作 从 内 存 中 读 取 一 些 地 址 不 连续 的 数据 ， 
然后 把 它们 装 进 单个 SIMD 寄存 器 ; 一 个 分 散 操作 从 一 个 SIMD 寄存 器 中 取出 数据 ， 然 后 把 
它们 写 回 各 自 独 立 非 连续 的 存储 单元 。 涉 及 聚集 / 分 散 操作 的 存储 地 址 ， 直 到 运行 之 前 是 不 
用 知道 的 ， 并 且 可 以 表示 任何 存 取 模式 (包括 连续 存 取 )， 人 允许 程序 员 (ASR PERE) 对 于 即使 
是 最 不 规则 的 循环 体 也 能 向 量化 执行 。 

图 8-1 是 一 个 包含 直接 读 和 直接 写 并 需要 聚集 / 分 散 操作 来 问 量 化 的 循环 体 示例 。 当 我 
们 向 量化 循环 体 时 ， 单 个 SIMD 迭代 会 读 一 组 A[B[i]] 并 写 一 组 D[E[i]]。 一般 而 言 ， 
A[B[i]] (和 DI[E[i]]) 在 执行 之 前 都 在 未 知 的 存储 位 置 ， 也 可 能 存储 在 非 连续 的 地 址 里 。 
因此 ， 通 常 的 SIMD 加 载 和 存储 指令 是 不 能 满足 需要 的 ， 那 些 指 令 只 能 获取 一 组 连续 的 数 
据 。 因 而 ， 我 们 需要 一 个 聚集 操作 来 读 取 地 址 非 连续 的 AIBrIill 数据 和 一 个 分 散 操作 来 写 
数据 到 D[E[i]]。 





图 8-1 一 个 引起 聚集 和 分 散 的 循环 体 的 示例 


聚集 和 分 散 相 对 于 连续 的 SIMD 加 载 和 存储 ， 会 要 求 硬 件 做 更 多 的 工作 一 一 它们 通常 会 有 
更 高 的 指令 开销 ， 更 小 的 可 预测 性 ， 更 可 能 需要 更 多 的 高 速 缓存 行 或 者 页 (这 取决 于 特定 的 访 存 
模式 )。 编 程 者 因此 应 尽 可 能 地 通过 避免 间接 和 非 连续 的 获取 数据 ， 来 最 大 化 的 减少 它们 的 使 用 。 

然而 ， 间 接 性 可 能 是 一 个 算法 的 固有 部 分 。 例 如 ， 数 据 元 素 可 能 按 一 个 输入 依赖 顺序 存 
W, 或 者 为 了 降低 计算 复杂 性 ， 计算 会 在 数据 元 素 的 子 集 上 执行 。 这 些 算法 很 常见 ， 尤 其 是 
在 一 些 数据 元 素 之 间 的 关系 事先 不 知道 的 结构 域 里 (例如 : 图 表 问 题 、 非 结构 网 络 )， 而 且 
替代 算法 也 同样 未 必 能 执行 一 一 即使 它们 的 SIMD 效率 很 高 。 

非 连 续 的 存 取 也 是 程序 员 常 选择 的 数据 布局 ,一 个 好 例子 是 把 数据 男 存 为 结构 数组 
(AoS) 而 不 是 数组 结构 (SoA). K 8-2 表明 了 一 个 数组 的 两 种 数据 布局 ， 这 个 数组 有 4 个 元 
素 ， 每 个 元 素 由 三 个 结构 体 成 员 {x,y,z} 组 成 。 
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AoS 使 得 程序 员 可 以 根据 数据 类 型 来 编写 应 用 程序 ， 这 些 数据 类 型 在 它们 的 领域 是 有 意 
义 的 〈 例 如 : 粒度 分 布 )， 但 是 并 不 适合 在 
SIMD 上 执行 ， 为 多 重 数 据 元 素 获 取 单 一 结 
构 体 成 员 都 不 会 是 连续 的 。SoA 在 某 种 程 
度 上 可 以 连续 获取 ， 但 不 是 在 所 有 情况 下 ， 
只 有 在 数组 本 和 喘 不 是 通过 间接 存 取 的 情况 
下 ， 才 能 保证 连续 的 加 载 和 存储 。 更 进 一 
步 来 讲 ， 使 用 SOA， 单 一 元 素 的 结构 成 员 
间 的 距离 会 导致 较 差 的 缓存 行为 。 即 使 是 
混合 算法 (例如 : 数组 结构 数组 ( Array- 
of-Structure-of-Arrays) ) 也 无 望 成 为 在 所 有 情况 下 最 好 的 布局 设计 。 更 糟 的 是 ， 对 于 同一 段 
代码 中 不 同 的 部 分 需要 不 同 的 布局 来 达到 最 优化 ， 而 且 外 部 库 通 常 需要 的 数据 是 在 特定 形式 
下 的 〈 这 超出 了 一 个 应 用 开发 者 所 能 控制 的 范围 )。 简 而 言 之 ， 为 应 用 选择 最 佳 数据 布局 依 
MIRA AA, SIMD 的 使 用 只 是 众多 因素 中 的 一 个 。 

当 必 须 使 用 聚集 和 分 散 时 ， 或 者 当 它 们 太 容 易 避 免 时 ， 帮 助 硬 件 使 得 它们 尽 可 能 快 很 重 
要 一 一 它们 的 性 能 在 某 种 程度 上 取决 于 程序 员 控 制 下 的 一 些 事情 。 本 章 剩 下 的 部 分 详细 说 明 
了 一 系列 在 处 理 吉 和 协 处 理 器 上 优化 聚集 和 分 散 模 式 的 方法 : 特别 地 使 用 域 的 知识 来 提高 时 
间 和 空间 的 局 部 性 ; 选择 一 个 适当 的 数据 布局 ; 在 AoS 和 SoA 之 间 执 行 即 时 置换 ; 通过 多 
重 循环 迭代 来 隐藏 聚集 和 分 散 的 开销 。 

我 们 把 这 些 方法 应 用 于 miniMD benchmark 的 聚集 和 分 散 模 式 上 ，miniMD benchmark 是 
来 自 于 美国 圣地 亚 国 家 实验 室 的 Mantevo 套件 (Sandia National Laboratories’ Mantevo Suite), 
使 用 了 伦 纳 德 (Lennard-Jones) 内 部 原子 势 。 然 而 ， 我 们 讨论 的 优化 方法 适用 于 广泛 的 应 用 。 


8.1 聚集 /分 散在 Intel 架构 下 的 说 明 


完全 明白 这 里 的 优化 方法 需要 一 些 关 于 Intel 指令 集 的 知识 。 尤 其 重要 的 是 对 于 聚集 和 
分 散 操 作 的 文 持 。8.5 节 有 指令 集 文 档 的 链接 。 

对 于 程序 员 来 说 ， 使 用 Intel SIMD 流 指令 扩展 (Streaming SIMD Extension, SSE) 和 Intel 
高 级 和 失 量 扩展 (Advanced Vector Extension，AVX)， 聚 集 和 分 散 操 作 都 需要 通过 标量 加 载 和 
存储 以 及 shuffle 指令 执行 。 标 量 加 载 和 存储 读 写 独立 的 数据 元 素 ，shuffle (例如 ，pinsrd.、 
extractps, vinsertf128) 把 独立 的 元 素 或 元 素 组 插 人 或 提取 出 向 量 寄存 需 。 

AVX2 包括 几 种 不 同类 型 的 聚集 指令 。 这 些 聚 集 指令 采用 基 址 寻 址 方式 ， 把 一 组 32 位 
或 者 64 位 有 符号 整数 的 索引 装 进 一 个 SIMD 寄存 器 ， 同 时 把 一 个 结束 掩 码 逆 进 一 个 SIMD 
寄存 器 的 符号 位 一 一 设 定 其 屏蔽 位 的 数据 是 聚集 在 一 起 的 ; 其 他 数据 没有 聚集 在 一 起 ， 而 且 
参与 计算 的 目的 数据 是 没有 修改 的 。 这 些 指 令 在 结束 后 会 清除 掩 人 码 。 

在 最 新 一 代 Intel Xeon Phi 协 处 理 需 上 使 用 的 Intel 初级 多 核 指令 (MCI) 同时 包括 聚集 
指令 和 分 散 指令 。 这 里 的 聚集 指令 和 AVX2 的 聚集 相似 ， 但 是 使 用 了 一 个 屏蔽 寄存 髓 来 存储 
结束 掩 码 。 而 且 ， 眼 集 指令 只 读 取 存储 在 一 个 (通常 有 64 个 字 节 宽 ) 缓存 行内 的 数据 。 由 
于 聚集 的 数据 可 能 被 多 个 缓存 行 分 散 存 储 ， 因 此 软件 通常 通过 验证 结束 掩 码 来 判断 所 有 的 数 
据 是 否 已 经 读 取 ， 如 果 没 有 ， 跳 转 回 循环 的 开头 并 重新 执行 指令 。 因 此 ， 一 个 聚集 操作 的 性 
能 会 随 着 存储 如 中 被 聚集 数据 的 物理 距离 的 增长 而 降低 。 分 散 指令 是 类 似 的 ， 相 对 于 聚集 指 
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令 从 存储 器 中 读 取 数据 ， 分 散 指令 把 源 SIMD A Ar PAGES SUIT SR T o 

最 后 ，AVX-512 包括 的 聚集 和 分 散 指 令 同 IMCI 的 聚集 和 分 散 指 令 非 常 相 似 ， 但 是 如 
F] AVX2 的 聚集 指令 ， 它 们 在 一 条 执行 指令 中 读 、 写 全 部 数据 ， 而 不 考虑 需要 使 用 多 少 缓存 
行 。AVX-512 将 会 被 下 一 代 的 Intel Phi 协 处 理 器 和 被 Intel 命名 的 代号 为 Knights Landing 的 
处 理 需 所 支持 。 

注意 SSE 为 英特尔 架构 引进 了 浮 点 型 SIMD 功能 ， 以 及 用 于 操作 128 位 向 量 寄存 器 的 
8 邻 。 新 的 指令 被 引入 到 SSE2, SSE3 和 SSE4 中 ,但 SIMD 的 宽度 仍 是 固定 的 ， 直 到 AVX 
引入 256 位 的 指令 。 类 似 地 ，AVX2 引入 了 新 的 指令 ， 而 没有 更 改 SIMD 的 宽度 。IMCI 把 
SIMD 的 宽度 增长 到 512 位 ， 但 是 有 特别 针对 于 最 新 一 代 协 处 理 器 的 指令 ; AVX-512 也 把 
SIMD 的 宽度 增长 到 512 位 ， 但 是 另外 也 会 支持 SSE 和 AVX 指令 集 。 


8.2 ”聚集 /分 散 模 式 在 分 子 动力 学 中 的 应 用 


分 子 动力 法 是 一 种 六 体 模 拟 的 示例 ， 分 子 动力 法 应 用 以 一 种 相对 简单 的 方式 模拟 大 量 
原子 或 分 子 〈( 即 ， 体 ) 在 空间 中 可 能 的 运动 轨迹 一 一 每 一 个 原子 受到 其 他 原子 施加 的 合力 ， 
因此 其 速度 和 位 置 都 会 被 影响 。 

性 能 分 析 miniMD ， 我 们 选择 的 分 子 动力 法 代码 (如 : Intel VTune CX At), 58 WA] PA 
关键 研究 热点 。 第 一 个 关键 研究 热点 是 力 计算 kernel， 它 占 了 将 近 80% 的 运行 时 间 。 力 计 
算 kernel 是 计算 原子 间作 用 力 的 kernel。 力 的 基本 计算 复杂 度 为 O (入 )， 由 于 每 一 个 原子 对 
所 有 其 他 的 原子 都 有 直接 或 间接 的 作用 力 。 这 对 于 大 量 的 原子 来 说 是 相当 高 的 开销 。 因 此 ， 
分 子 动力 法 典型 封装 把 每 一 个 原子 上 的 作用 力 拆 分 成 两 个 典型 的 组 成 部 分 : 短程 力 ， 计 算 所 
有 间距 小 于 Re 的 原子 对 间 的 作用 力 ; 长 程 力 ， 估 算 不 需要 直接 计算 的 所 有 原子 对 间 的 作用 
Fi (AN: 通过 快速 傅 里 叶 变 换 )。 这 种 对 于 作用 力 的 拆 分 使 得 力 的 计算 复杂 度 降 为 O C NK), 
kk 是 每 一 个 原子 邻居 个 数 的 期 望 值 ( 它 本 号 是 一 个 关于 模拟 参数 的 函数 ， 如 密度 和 Re)。 作 
为 基准 测试 代码 ，miniMD 没有 包括 长 程 力 的 估算 kernel 一 一 些 后 我 们 的 关注 点 都 是 近 程 力 。 
第 二 个 关键 研究 热点 是 构建 邻居 列表 kernel， 它 占 了 10% 的 运行 时 间 ， 该 kernel 构建 的 列 
表 中 所 包含 的 原子 对 是 间距 小 于 截断 距离 与 一 些 边缘 (skin) 距离 Rs 之 和 的 原子 对 。 这 个 边 
缘 距 离 对 于 一 些 时 间 步 长 来 说 允许 列表 重用 ， 以 考虑 比 实际 需要 更 多 的 原子 对 作为 代价 。 

图 8-3 表明 了 一 个 二 维 图 像 上 的 原子 邻 域 一 一 在 三 维 空间 中 ， 邻 域 是 一 个 球体 ， 模 拟 区 
域 是 一 个 立方 体 。 模 拟 空间 也 分 成 “ 格 " (cell) BRAT “FR? (bin)， 它 们 用 来 加 速 构建 邻居 列表 。 
通过 使 用 这 种 方法 谨慎 地 离散 化 空间 ， 并 在 每 个 箱 中 预先 计算 出 一 个 原子 列表 ， 构 建 邻 居 列 
表 也 可 以 避免 O(N’) 的 复杂 度 一 一 对 于 每 一 个 原子 来 说 ， 这 仅 对 于 核对 预 确定 的 一 组 邻居 节 
点 附近 的 bin 来 说 是 必要 的 ， 而 不 是 全 部 的 模拟 区 域 。 

这 两 个 关键 研究 热点 最 原始 的 miniMD 源 代码 在 图 8-4 和 图 8-5 中 给 出 ， 即 分 别 是 短程 
力 的 计算 和 构建 邻居 列表 kernel。 如 这 些 图 所 示 ， 对 于 每 一 个 kernel 来 说 ， 都 有 两 个 要 使 用 
聚集 / 分 散 操作 的 原因 ; 相关 行 用 加 粗 字 体 来 强调 。 第 一 ， 为 了 找到 每 一 个 原子 索引 CD, 4B 
EETRI G) 存储 在 查找 数组 (neighs füloc bin) 中 。 结 果 是 邻居 位 置 必 须 是 聚集 的 
(从 x 轴 来 看 )， 而 且 对 于 邻居 原子 的 作用 力 的 计算 贡献 必须 累积 进 力 数 组 (车 )， 方 法 是 执行 一 
个 聚集 操作 一 个 减法 运算 ， 最 后 ， 一 个 分 散 操作 。 从 代码 中 除去 这 种 间接 操作 只 在 一 种 情况 
下 是 可 能 的 ， 即 通过 引进 元 余 计算 和 存储 一 一 由 于 不 同 原子 的 邻 域 会 部 分 地 不 可 预测 地 重 礁 ， 
无 法 排序 原子 使 得 所 有 【最 小 限度 的 ) 邻 域 通过 连续 的 索引 来 顺序 执行 。 第 二 ， 位 置 和 力 数 组 
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存储 在 AoS 中 ， 连 同 结构 的 尺寸 一 一 由 编译 时 定义 的 变量 (PAD) 所 控制 。 然 而 ， 把 这 些 数组 
转换 成 SOA 不 会 影响 代码 中 的 聚集 / 分 散 操作 的 数量 ， 由 于 原子 索引 本 身 是 不 连续 的 。 
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图 8-3 一 个 粒子 在 二 维 空间 中 的 邻 域 ， 它 由 Rc 截断 距离 和 Rs 边缘 距离 所 定义 


for (int i = 0; i < nlocal; i++) ( 
neighs - &neighbor.neighbors[i*neighbor.maxneighs]; 
const int numneighs = neighbor.numneigh [i] ; 
const float xtmp = x[i*PAD+0]; 
const float ytmp = x[i*PAD+1]; 
const float ztmp = x[i*PAD-42]; 
float fix = 0.0; float fiy := 0.0; float 
#pragma simd reduction(+:fix, fiy, fiz) 
for (int k = 0; k < numneighs; k++) { 
const int j = neighs[k]; 
const float delx = xtmp - x[j*PAD+0]; 
const float dely = ytmp - x[j*PAD+1]; 
const float delz = ztmp - x[j*PAD+2]; 
const float rsq = delx*delx + dely*dely + delz*delz; 
if (rsq < cutforcesq) { 
const float sr2 = 1.0 / rsq; 
const float sr6 = sr2 * sr2 * sr2 * sigma6; 
const float force - 48.0*sr6*(sr6-0.5)*sr2*epsilon; 
fix += delx * force; 
fiy += dely * force; 
fiz += delz * force; 
if (GHOST NEWTON || j < nlocal) { 
£[j*PAD+0] -= delx * force; 
£[j*PAD+1] -= dely * force; 
£[j*PAD«2] -= delz * force; 


if (EVFLAG) { 
// compute contribution to energy/virial 


} 


) 

f[i*PAD«0] += fix; 
£[i*PAD+1] += fiy; 
f[i*PAD42] += fiz; 





图 8-4 miniMD 上 最 初 的 短程 力 的 计算 循环 (为 了 节省 空间 省 去 了 能 量 / 维 里 的 计算 ) 
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for (int i = 0; i < nlocal; i++) { 
int* neighptr - &neighbors[i * maxneighs]; 
int n = 0; 
const float xtmp = x[i*PAD+0]; 
const float ytmp = x[i*PAD+1] ; 
const float ztmp = x[i*PAD+2]j; 
const int ibin = coord2bin(xtmp, ytmp, ztmp); 
for (int k = 0; k < nstencil; k++) 
const int jbin = ibin + stencil [k]; 
int* loc bin = &bins[jbin * atoms per bin]; 
if (ibin == jbin) 
// check for neighbors in own bin 
else { 
for (int m = 0; m < bincount[jbin]; m++) { 
const int j = loc bin[m]; 
if (halfneigh && !ghost newton && (j « i)) 
continue; 
const float delx = xtmp - x[j*PAD+0]; 
const float dely = ytmp - x[j*PAD+1]; 
const float delz = ztmp - x[j*PAD+2]; 
const float rsq - 
delx*delx + dely*dely + delz*delz; 
if((rsq <= cutneighsq)) neighptr[n++] = j; 


} 


numneigh[i] = n; 





图 8-5 miniMD 上 最 初 的 邻居 列表 的 构建 循环 (为 了 节省 空间 省 去 了 查看 目 己 箱 里 的 邻居 节点 ) 


其 他 的 分 子 动力 学 代码 (如 : LAMMPS， 也 是 由 美国 桑 迪 亚 国 家 实验 室 研 发 的 ) 可 能 会 
有 额外 的 聚集 / 分 散 操作 出 现在 这 些 循环 的 内 部 。 在 以 不 同 种 类 的 原子 为 主 的 模拟 中 (如 : 
AMA), (UBB PAH (如 : 截断 距离 ) 实际 上 是 不 同 的 ， 这 基于 考虑 范围 内 的 原子 
种 类 的 结合 。 此 外 ， 更 复杂 的 是 ， 原 子 间 势能 (如 : 内 能 的 原子 方法 ) 基于 两 个 原子 间 的 计 
算 距 离 〈( 因 为 直接 计算 力 值 的 开销 太 大 )， 会 引入 多 余 的 查 表 找 。 

考虑 到 在 分 子 动力 学 模拟 过 程 中 计算 力 所 占 的 高 时 间 比 ， 而 且 计 算 力 要 求 很 多 聚集 分 散 
操作 ， 那 么 减少 聚集 / 分 散 操 作 的 开销 会 显著 提高 整个 应 用 的 性 能 。 


8.3 优化 聚集 / 分 散 模 式 
8.3.1 高 时 间 和 空间 的 局 部 性 


存储 系统 对 于 独立 数据 的 读 写 (它们 构成 聚集 /分 散 操作 ) 的 响应 对 于 操作 的 性 能 会 有 
很 大 的 影响 。 通 过 有 效 的 运作 ， 写 延迟 可 以 隐藏 ， 而 需要 用 到 读 结果 的 指令 要 等 到 读 完 成 才 
能 执行 一 一 这 导致 了 聚集 比分 散 对 于 延迟 更 敏感 。 如 果 任 意 操作 的 数据 不 在 缓存 内 ， 或 者 数 
据 分 散在 很 多 缓存 行 里 (B: 这 里 几乎 没有 重用 / 时间 局 部 性 )， 那 么 聚集 和 分 散 操 作 的 完成 
会 变 得 更 慢 ( 即 : 这 里 没有 多 少 空间 局 部 性 )。 对 于 分 子 动力 学 示例 来 说 ， 一 个 能 同时 提升 
聚集 /分散 操 作 的 时 间 和 空间 局 部 性 的 方法 是 排序 。 如 我 们 下 面 要 将 要 描述 的 一 样 ， 排 序 不 
需要 是 确切 的 ， 即 使 是 局 部 排序 也 能 提高 时 间或 者 空间 的 局 部 性 ， 因 此 ， 这 是 一 个 提升 性 能 
的 好 机 会 。 

为 了 提高 时 间 局 部 性 ， 我 们 可 以 通过 原子 的 空间 位 置 来 给 它们 排序 。 如 果 原 子 在 空间 上 
相 邻 ,那么 它们 就 很 有 可 能 拥有 相同 的 邻居 。 最 外 面 循 环 的 (原子 之 上 的 ) 邻近 迭代 会 使 用 
聚集 / 分 散 操作 ， 因 此 ， 这 个 排序 会 使 得 该 操作 命中 很 多 相同 的 邻居 。 对 于 一 个 通过 聚集 或 
者 分 散 操作 访问 的 给 定 邻 居 ， 这 被 缓存 命中 的 可 能 性 会 很 大 ， 由 于 这 个 邻居 有 可 能 是 其 他 最 
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近 获 取 的 原子 的 邻居 。 

为 了 提高 每 一 个 独立 的 聚集 /分 散 操作 的 空间 局 部 性 ， 我们 可 以 在 每 一 个 原子 的 邻居 列 
表 里 排序 索引 。 这 将 极 大 地 减少 一 个 已 知 的 聚集 /分散 操 作 访 问 的 缓存 行 数量 。 

对 于 所 有 应 用 来 说 ， 排 序 可 能 不 是 提升 空间 或 者 时 间 局 部 性 最 好 的 方式 ,， 但是， 每 
一 部 分 数据 的 重用 率 最 大 化 和 每 一 个 聚集 /分散 操作 访问 最 少 的 缓存 行 的 原则 ， 是 普遍 适 
用 的 。 

图 8-6 中 的 图 比较 了 原子 在 如 下 两 种 情况 下 的 执行 时 间 : 随机 排序 和 通过 空间 位 置 排序 。 
该 排序 使 用 了 简单 的 扫 摘 线 排序 ， 基 于 原 
子 的 箱 索 引 一 一 在 最 新 版 本 的 miniMD 中 这 
是 一 个 默认 方法 ， 并 且 在 LAMMPS 中 也 有 
模仿 的 排序 。 两 个 平台 对 于 随机 排序 都 占 
用 了 大 量 的 计算 资源 ， 在 处 理 器 上 ， 排 序 
对 于 性 能 有 了 1.48 倍 的 提升 ， 在 协 处理 需 
上 ， 排 序 对 于 性 能 提升 了 1.36 fit. 


o+ 
PTA : : " Intel Xeon 处 理 器 Intel Xeon Phi 协 处 理 器 
LATE A 
在 之 前 的 工作 中 ,我 们 已 经 证 明了 通 。 随机 顺序 。 排 序 后 


过 多 线程 的 空间 分 解 《 随 有 在 每 一 个 线程 的 ”网 8-6 比较 原子 随机 排序 和 原子 基于 空间 位 置 拓 
本 地 域内 的 空间 排序 ) 可 以 得 到 更 高 级 别 的 序 (扫描 线 排 序 ) 的 执行 时 间 


时 间 和 空间 局 部 性 ， 因 此 获得 了 更 大 的 性 

能 提升 。 我 们 仍然 在 同 miniMD 最 初 的 开发 者 讨论 最 好 的 方法 来 整合 这 种 分 解 到 最 初版 本 的 
基准 测试 中 一 一 这 一 和 章 的 所 有 结果 都 使 用 所 谓 的 “原子 分 解 "， 每 一 个 线程 只 简单 地 分 配 相 
同 数量 的 原子 。 使 用 原子 分 解 能 提供 更 好 的 负载 均衡 ， 但 是 一 个 线程 可 能 会 需要 访问 属于 其 
他 线程 的 原子 ， 这 种 可 能 性 会 随 春 线程 数量 的 增长 而 增加 。 





8.3.2 选择 一 种 适当 的 数据 布局 : AoS 与 SoA 


如 之 前 讨论 过 的 ， 选 择 AoS 或 者 SoA 作为 数据 布局 是 根据 数据 的 访问 模式 来 决定 
的 一 一 根据 经 验 法 则 : 如 果 数 据 是 通过 间接 元 素 访 问 的 并 且 从 一 个 结构 需要 访问 多 个 元 素 ， 
就 使 用 AoS; 如 果 不 是 ， 则 使 用 SoA. 

为 了 更 好 地 理解 这 种 经 验 法 则 ， 考 虑 最 好 和 最 坏 情况 下 两 种 数据 结构 的 聚集 / 分 散 操作 
的 存储 访问 模式 ， 假 设 SIMD 的 宽度 是 Y， 一 个 拥有 M 个 元 素 的 结构 体 ， 一 个 长 度 ( 按 数据 
个 数 来 算 ) 为 C 的 缓存 行 ， 如 表 8-1 和 表 8-2 所 示 。 对 于 这 两 种 数据 布局 来 说 ， 最 好 的 情况 
是 聚集 和 分 散 操 作 的 数据 案 引 是 连续 的 ; 最 坏 的 情况 是 肾 集 和 分 散 操 作 的 数据 案 引 是 不 连续 
的 。 需 要 注意 的 是 ， 在 最 坏 的 情况 下 两 个 因素 在 实际 情况 中 所 占 的 比例 ， 不 考虑 对 齐 问 题 ， 
访问 的 数据 可 能 会 分 散在 两 个 缓存 行 里 。 


表 8-1 当 从 一 个 长 度 为 M 的 结构 中 加 载 1 个 数据 ，AoS 和 SoA 访问 的 缓存 行 的 数量 


数据 布局 最 好 情况 (连续) 最 坏 情 况 (不 连续 ) 
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表 8-2 当 从 一 个 长 度 为 M 的 结构 中 加 载 M 个 数据 ，AoS 和 SOA 访问 的 缓存 行 的 数量 


数据 布局 最 好 情况 ( 连续 ) 最 坏 情况 (不 连续 ) 
nes 2x i MO 


为 了 把 这 些 等 式 应 用 到 miniMD E, 在 协 处 理 侣 上 单 精度 运行 ,我们 设 N= 16，M = 3， 
= 16 (由 于 一 个 64 个 字 节 的 缓存 行 能 存储 16 个 4 字 节 的 浮 点 数 )。 由 于 我 们 在 三 维 空间 
上 获取 一 个 原子 的 位 置 和 力 ， 因 此 我 们 关心 的 是 第 二 组 等 式 。 由 于 每 一 个 原子 的 邻居 是 不 连 
续 的 ， 因 此 如 果 我 们 使 用 SoA 而 不 是 AoS 作为 数据 布局 方式 ， 我 们 硕 望 每 次 聚集 或 者 分 散 
操作 可 以 命中 三 倍 以 上 的 缓存 行 。 通 过 设 M=4 (BU: 为 结构 体 添 加 一 个 额外 的 元 素 )， 我 们 
能 保证 对 齐 并 且 通 过 两 个 因素 中 的 一 个 来 减少 最 坏 情况 下 的 缓存 行 数量 。 
miniMD 已 经 使 用 了 AoS， 因 此 不 能 期 望 转换 成 SoA 可 提高 性 能 。 确 实 ， 在 实验 中 ， 
我 们 在 两 个 平台 上 观察 到 了 很 小 的 速度 降低 (<5%)。 性 能 的 差别 如 此 之 小 反映 了 miniMD 
(排序 后 的 ) 并 不 是 存储 限度 一 一 聚集 / 分 散 操作 的 指令 开销 才 是 性 能 的 瓶颈 。 如 之 前 说 明 
HJ, M AoS 或 者 SoA 加 载 {x,y,z} 数据 都 是 聚集 操作 ， 因 此 编译 器 产生 的 指令 序列 在 两 种 情 
况 下 都 是 一 样 的 (最 重要 的 区 别 是 布局 对 地 址 计算 的 作用 )。 


8.3.3 AoS 和 SoA 之 间 的 动态 转换 


前 一 节 的 结果 并 不 意味 着 AoS 和 SoA 通常 是 可 以 互 换 的 ， 并 且 没 有 任何 性 能 影响 。 事 
实 上 ， 由 于 存储 访问 模式 的 不 同 ， 不同 的 优化 技术 适用 于 两 种 不 同 的 数据 布局 。 在 miniMD 
中 从 SoA 上 收集 位 置 和 力 的 {x,y,z} 数据 总 是 需要 三 个 聚集 操作 : 一 个 用 来 收集 x 的 值 ， 一 
个 用 来 收集 y 的 值 ， 一 个 用 来 收集 z 的 值 。 男 一 个 方面 ， 从 AoS 收集 可 以 当成 一 个 单独 的 
收集 结构 ， 紧 随 其 后 的 是 两 者 之 间 的 布局 转换 。 ! 

当 视 为 转换 操作 时 ， 很 明显 ， 有 些 操 作 会 引入 宛 余 。 例 如 : 硬件 每 次 可 以 从 缓存 中 加 
载 结构 的 一 个 元 素 ， 因 此 需要 三 次 访问 来 读 完 一 个 结构 。 如 果 我 们 不 是 在 一 次 访问 中 读 取 一 
整个 结构 ， 我 们 就 需要 减少 访问 的 次 数 和 请 求 指 令 的 数量 。 代 价 是 我 们 必须 使 用 一 系列 额外 
“shuffle” 指 令 重 新 排序 x、y 和 z 值 。 

图 8-7 解释 说 明了 对 于 miniMD 位 置 数组 使 用 SSE 的 部 分 AoS-to-SoA 转换 过 程 。 我 们 
一 次 加 载 一 个 完整 的 邻居 (BN: 4 个 连续 的 32 位 值 ， 包 括 填充 ) 到 SIMD 寄存 器 里 。 在 该 例 
子 里 ， 加 载 的 邻居 是 带 索 引 i、jk 和 1 的 。 然 后 使 用 连续 的 7 个 shuffle 指令 或 置换 指令 来 实 
现 转换 〈 一 个 构建 如 图 所 示 的 四 个 中 间 寄 存 器 ， 另 一 个 构建 最 终 的 每 个 x、y、z 的 寄存 器 )。 
为 了 借助 更 大 的 SIMD 来 扩展 指令 集 的 序列 长 度 ， 每 个 回 量 寄存 器 中 需要 加 载 多 个 原子 。 实 
际 上 .我 们 要 把 一 个 256 位 的 AVX 寄存 器 当成 两 个 128 位 的 通道 ， 把 一 个 512 位 的 IMCI 
寄存 器 当成 4 个 128 位 的 通道 。 

SoA-to-AoS 转换 过 程 就 是 AoS-to-SoA 的 逆 过 程 ， 使 用 相同 的 shuffle 序列 。 除 了 存 有 
SoA 格式 x、y、z 值 向量 寄存 器 外 ， 我 们 还 要 在 一 个 寄存 需 中 存储 填充 的 值 (通常 是 0 )。 

图 8-8 和 图 8-9 摘录 了 用 来 完成 这 些 转换 的 AVX-512 内 置 函数 代码 。 在 单 精 度 的 情况 
下 完整 的 转换 内 置 阴 数 代码 ， 以 及 其 他 指令 集 的 代码 ， 作 为 源 代码 的 一 部 分 可 以 在 本 书 配套 
的 网 站 (lotsofcores.com) 上 下 载 。 
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8-7 ”在 AoS-to-SoA 转换 过 程 中 寄存 器 和 存储 的 内 容 。 字 母 P 对 应 的 数据 是 填 
充 的 ， 用 来 保证 数据 的 对 齐 


"define MM BCAST4 PS(a) mm512 extload ps(a, 


MM UPCONV PS NONE, MM BROADCAST 4X16, MM HINT NONE) 
#define MM MASK BCAST4 PS(v, m, a) 


 mm512 mask extload ps(v, m, a, MM UPCONV PS NONE, 
. MM BROADCAST 4X16, MM HINT NONE) 


. m512 tmp0 = MM BCAST4 PS(&data[indices[01]); 
tmp0 = MM MASK BCAST4 PS(tmpO, mask OOFO0, 
&data[indices[4]]); 

tmp0 = MM MASK BCAST4 PS(tmpO, mask OF00, 
&data [indices[8]]); 

tmp0 = MM MASK BCAST4 PS(tmp0O0, mask F000, 
&data [indices[121]1); 


// repeat loads for tmpl with indices[1,5,9,13] 
// repeat loads for tmp2 with indices[2,6,10,14] 
// repeat loads for tmp3 with indices[3,7,11,15] 


_ m512 xz01 = mm512 mask swizzle ps(tmp0, mask OxAAAA, 
tmpl, MM SWIZ REG CDAB); 
_ m512 ywOl = mm512 mask swizzle ps(tmpl, mask 0x5555, 
tmp0, MM SWIZ REG CDAB); 
. m512 xz23 = mm512 mask swizzle ps(tmp2, mask OxAAAA, 
tmp3, MM SWIZ REG CDAB); 
. m512 yw23 = mm512 mask swizzle ps(tmp3, mask O0x5555, 
tmp2, MM SWIZ REG CDAB); 


x = mm512 mask swizzle ps(xz01, mask OxCCCC), xz23, 
.MM SWIZ REG BADC) ; 
y = mm512 mask swizzle ps(yw01, mask OxCCCC), yw23, 
_MM SWIZ REG BADC); 
z= mm512 mask swizzle ps(xz23, mask 0x3333), xz01, 
_MM SWIZ REG BADC); 





图 8-8 单 精 度数 据 的 AoS-to-SoA 转换 的 节选 代码 ， 使 用 的 是 IMCI 内 置 函数 


注意 不 熟悉 编译 器 内 置 函数 和 Intel 指令 集 的 读者 可 以 阅读 Intel 内 置 函 数 手 册 和 指令 
集 参 考 手 册 来 帮助 理解 如 下 所 示 的 节选 代码 ， 这 些 资源 的 链接 在 本 章 的 结尾 可 以 找到 。 

XX 8-3 和 8-4 比较 了 默认 编译 器 产生 的 聚集 / 分 散 操 作 的 指令 数 ， 以 及 使 用 了 之 前 提 到 
的 优化 方法 后 的 聚集 / 分 散 操作 的 指令 数 。 需 要 注意 的 是 ,5$12 位 指令 的 数量 是 在 最 坏 的 情况 
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下 ， 假 设 3 个 聚集 操作 访问 了 16 个 缓存 行 并 且 每 个 缓存 和 TERT denne [vgacherpe, 
cmp、jmp)。 即 将 推出 的 下 一 代 处 理 器 和 协 处 理 需 将 会 支持 AVX-512 的 指令 ， 这 项 计数 将 
会 下 降 到 三 条 指令 。 对 于 每 个 使 用 AVX-512 的 聚集 操作 只 需要 调用 vgatherps 一 次 ， 而 
不 考虑 它 访问 的 缓存 行 的 数量 。 


#define MM PACKSTORE4 PS(a, m, v) 
_mm512 mask  extpackstorelo ps(a, m, v, 
_MM DOWNCONV _ PS NONE, _MM_HINT " NONE) 


| m512 p = zeroes; 


m512 xz01 = mm512 mask swizzle ps(x, mask OxCCCC, 
MM. SWIZ REG | BADC) ; 
| m512 yw01 = mm512 mask swizzle ps(y, mask OxCCCC, 
MM. SWIZ REG _ BADC) ; 
| m512 xz23 = mm512 mask swizzle ps(z, mask 0x3333, 
_MM SWIZ REG | BADC) ; 
m512 yw23 =  mm512 mask swizzle ps(p, mask 0x3333, 
MM SWIZ REG BADC); 


_ m512 tmpO = mm512 mask swizzle ps(xz01, mask OxAAAA, 
yw01, MM SWIZ REG CDAB); 

| m512 tmpl = _mm512 mask swizzle ps(yw01, mask 0x5555, 
xz01, MM SWIZ REG CDAB); 

| m512- tmp2 = | mm512 magi . Swizzle ps(xz23, mask OxAAAA, 
yw23, MM SWIZ REG CDAB); 

| m512 tmp3 =  mm512 mask | Swizzle ps(yw23, mask 0x5555, 
xz23, _MM SWIZ | REG | CDAB) ; 


_MM PACKSTORE4 PS(&data[indices[0]], mask 000F, tmp0) ; 
_MM_PACKSTORE4 PS(&data[indices[4]], mask_OOFO, tmp0) ; 
MM PACKSTORE4 PS(&data[indices[8]], mask 0F00, tmp0) ; 
MM PACKSTORE4 PS(&data[indices[12]], mask F000, tmpO); 


// repeat stores for tmpl with indices[1,5,9,13] 
// repeat stores for tmp2 with indices[2,6,10,14] 


// xepeat stores for tmp3 with indices[3,7,11,15] 
图 8-9 单 精度 数据 的 SoA-to-AoS 转换 的 节选 代码 ， 使 用 的 是 IMCI A eR 
表 8-3 ”默认 聚集 /分散 序列 的 指令 数 





| e | æn | oe 
# Elements es 16 
Gather ls 144 
e 优化 后 E 数 
256 i 528 
Elements 16 


Load Indices 
Load Data 
Shuffle 


— 
ON 


优化 后 的 聚集 /分 散 程 序 需要 的 指令 数 随 着 聚集 元 素 的 数量 增长 而 增加 。 这 并 不 是 出 平 
意料 的 。 重 要 的 是 原始 序列 和 优化 后 序列 在 开销 上 的 相对 偏差 ， 以 及 这 可 能 对 性 能 产生 的 影 
响 ， 如 图 8-10 所 示 。 

处 理 器 优化 后 的 加 速 比 为 1.23， 协 处 理 需 优化 后 的 加 速 比 为 1.2$。 这 些 加 速 比 都 小 于 指 
令 数 量 减少 所 带 来 的 加 速 比 ， 如 表 8-3 MK 8-4 所 示 ， 但 是 由 于 现代 架构 的 超标 量 和 流水 线 特 
质 我 们 不 应 指望 数字 是 精确 匹配 的 。 此 外 ， 考 虑 到 协 处 理 需 的 特殊 性 ， 编 译 需 产生 的 聚集 操作 
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所 需要 的 指令 的 数量 不 太 可 能 同 最 坏 情况 下 的 数量 一 样 高 (由 于 之 前 的 优化 排序 )， 而 且 由 于 


通用 和 屏蔽 寄存 器 的 数量 是 有 限 的 ， 可 能 引 
人 我 们 不 考虑 的 大 量 额外 mov 指令 。 


8.3.4 分摊 聚集 / 分 散 和 转换 的 开销 


在 AoS 和 SoA 布局 间 进 行 即时 转换 可 
以 显著 减少 聚集 / 分 散 操 作 的 指令 开销 ， 但 
是 快速 的 转换 过 程 成 为 kernel 的 瓶颈 ， 这 
个 过 程 只 对 聚集 的 数据 执行 了 很 少 的 计算 。 
在 miniMD 上 构建 邻居 列表 kernel 是 这 项 
功能 的 一 个 好 例子 : 对 于 每 一 个 可 能 邻近 
的 原子 ， 只 需要 很 少 的 算术 运算 和 比较 来 
判定 这 个 原子 是 否 应 该 加 入 到 邻居 列表 中 。 


5 一 一 


执行 时 间 (s) 





Intel Xeon/A s — Hel Xeon Phi 协 处 理 器 | 
a 编译 器 聚集 «聚集 /转换 
图 8-10 ”比较 使 用 默认 编译 絮 的 聚集 操作 计算 短程 
力 的 执行 时 间 和 聚集 / 转 置 内 部 例 程 计 算 
短程 力 的 执行 时 间 


然而 ， 不 像 计算 力 的 kernel (这 里 两 个 原子 有 相同 邻居 列表 的 可 能 性 很 小 )， 邻 居 列 表 的 
构建 把 一 些 原子 (在 同一 个 bin 中 的 ) 同一 组 固定 的 潜在 邻居 比较 。 因 此 ， 在 多 次 重用 SoA 
数据 前 ， 有 可 能 在 这 些 固定 的 潜在 邻居 组 中 只 执行 一 次 聚集 和 转换 操作 ， 如 图 8-11 所 示 。 


int cached bin 
int ncache = 0; 


for (int i = 0; i « nlocal; 


i++) { 


int* neighptr = &neighbors[i * maxneighs] ; 


int n = 0; 


const float xtmp x [i*PAD+0] ; 
const float ytmp x [i*PAD+1) ; 
const float ztmp = x[i*PAD+2]; 
const int ibin = coord2bin(xtmp, ytmp, ztmp) ; 


if (ibin != cached bin) { 


ncache = 0; 


for (int k = 0; k < nstencil; k++) { 
int jbin ibin + stencil [k]; 
int* loc bin = &bins[jbin * atoms per bin]; 
for (int m = 0; m < bincount[jbin]; m++) { 
const int j = loc bin[m]; 
scache[0*CACHE SIZE+ncache] = j; 
scache[1*CACHE SIZE+ncache] = x[j*PAD+0]; 


scache[2*CACHE SIZE+ncache] 
scache[3*CACHE SIZE+ncache] 


ncache++; 


} 


cached bin = ibin; 


x [j*PAD+1] ; 
x[j*PAD+2] ; 


for (int 6 = 0; c « ncache; c++) { 
const int j = scache[0*CACHE SIZE+c] ; 


图 8-11 


if (halfneigh && !ghost newton && (j < i)) 
continue; 
const float delx xtmp - scache[1*CACHE SIZE+c] ; 
const float dely = ytmp - scache[2*CACHE SIZE+c] ; 
const float delz ztmp - scache[3*CACHE SIZE+c] ; 
const float rsq = delx*delx + dely*dely + delz*delz; 
if((rsq <= cutneighsq)) neighptr[n++] = j; 


numneigh[i] = n; 





在 miniMD 上 优化 后 的 构建 邻居 列表 的 循环 。 为 了 提高 可 读 性 ， 
我 们 此 处 展示 的 是 标量 代码 (DEARER) 
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我 们 对 于 一 个 给 定 的 箱 使 用 事先 分 配 的 固定 尺寸 的 数组 ( scache) 来 缓存 转换 模板 。 
为 了 保证 原子 间 的 循环 完整 ， 按 照 使 用 原子 分 解 所 需要 的 ， 我 们 基于 箱 索引 的 变化 检测 是 否 
执行 聚集 和 转换 操作 (图 中 用 粗 体 强调 ) 一 一 粒子 通过 箱 索 引 排 序 保证 了 模板 的 重用 。 第 二 
个 循环 用 和 之 前 一 样 的 方法 把 原子 添加 到 邻居 列表 中 ， 但 是 直接 从 scache JIR SoA 数据 
而 不 是 从 位 置 数组 (x) 直接 加 载 AoS 数据 。 

除了 重用 转换 邻居 数据 的 能 力 ， 这 种 构建 邻居 列表 的 方法 有 很 多 其 他 的 好 处 。 第 一 ， 它 
一 组 邻居 连续 地 存储 一 个 位 置 ， 而 且 
可 能 小 到 足够 存储 在 接近 计算 单元 (HU: L1 或 者 站 2 ) 大 小 的 一 级 缓存 里 。 第 二 ， 它 使 得 代 








scache 内 容 的 单 次 循环 中 ， 这 简化 了 完全 填充 向 量 寄 存 需 的 过 程 。 这 项 优化 方法 对 性 能 的 
影响 如 图 8-12 所 示 。 


执行 时 间 (s) 





Intel Xeon 处 理 器 Intel Xeon Phi 协 处 理 器 
a 原始 代码 s 回 量化 代码 “优化 后 代码 
图 8-12 比较 如 下 三 种 情况 的 执行 时 间 : 使 用 原始 标量 代码 构建 邻居 列表 的 执行 时 间 ， 
即时 转换 的 向 量化 实现 的 执行 时 间 ， 缓 存 转换 结果 的 最 佳 实现 方案 的 执行 时 间 


8.4 总 结 


本 章 描 述 了 聚集 和 分 散 操 作 并 且 解 释 了 它们 需要 向 量化 特定 循环 的 原因 。 由 于 它们 相对 
于 SIMD 的 连续 加 载 和 存储 的 高 开销 ， 并 且 这 是 它们 所 不 能 避免 的 ， 所 以 我 们 论证 了 4 种 优 
化 技术 来 提高 聚集 /分 散 操作 的 性 能 : 使 用 域 知 识 和 排序 来 提高 时 间 和 空间 的 局 部 性 ; 基于 
它们 的 访问 模式 为 热门 计算 循环 选择 一 种 适当 的 数据 布局 ; 通过 AoS 和 SoA 之 间 的 数据 布 
局 的 即时 转换 ， 来 尽 可 能 地 减少 每 一 个 独立 的 聚集 / 分散 操作 的 指令 数 ; MASEM 
(可 能 的 情况 下 ) 来 分 挫 聚 集 /分 散 和 转换 操作 的 开销 。 

对 于 一 个 典型 的 分 子 动力 学 应 用 ,我 们 可 以 看 到 在 最 新 一 代 的 处 理 右 和 协 处 理 硕 上 未 优 
化 和 优化 后 的 代码 版 本 之 间 的 性 能 差距 接近 2 倍 。 采 用 的 两 个 优化 方法 在 两 个 处 理 需 平台 上 
不 但 是 一 样 的 ， 而 且 是 基本 通用 的 ， 同 时 不 局 限于 最 新 一 代 的 Intel PH. KATE 
们 能 应 用 于 未 来 的 产品 和 其 他 的 处 理 需 设计 ， 因 此 在 当今 应 用 程序 中 优化 聚集 /分 散 模 式 能 
保证 在 将 来 它们 依旧 能 表现 出 良好 的 性 能 水 准 。 


8.5 更 多 信息 


这 里 有 一 些 我 们 推荐 的 同 本 章 相 关 的 附加 阅读 材料 : 
e 为 分 子 动力 学 开发 SIMD ， 使 用 Intel Xeon 处 理 器 和 Intel Xeon Phi BEES, http:// 
dl.acm.org/citation.cfm?id-2511458 。 
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分 子 动力 学 短程 力 的 快速 并 行 算法 ，http:/dl.acm.org/citation.cfm?id=201628。 

e Intel 64 和 IA-32 架构 软件 开发 者 手册 ， 第 2 卷 : 指令 集 参 考 ，A-Z，http://www.intel. 
com/content/dam/www/public/us/en/documents/manuals/64-ia-32-architectures-software- 
developer-instruction-set-reference-manual-325383.pdf. 

e Intel Xeon Phi UMIb 3 gs dá + RRA Ss FM, https://software.intel.com/sites/default/ 
files/managed/68/8b/3 19433-019.pdf. 

e Intel 架构 指令 集 扩 展 编 程 参 考 手 册 , http://software.intel.com/sites/default/files/managed/ 
68/8b/319433-019.pdf。 

e 下 载 本 章 和 其 他 章 的 代码 地 址 http://lotsofcores.com. 

e 下载 最 新 版 本 的 miniMD, http://mantevo.org. 
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9.14 AN 体 模 拟 


N 体 模拟 是 一 个 常用 的 天 体 物 理 问题 ， 它 需要 计算 交互 粒子 间 重 力 影响 下 的 空间 移动 。 
模拟 中 的 每 一 个 时 间 步 中 ， 每 个 粒子 实施 于 其 他 粒子 的 力 根据 下 式 计 算 : 
mym,(r,—r;) 
pes 

基于 此 式 ， 每 个 粒子 的 速度 和 位 置 都 将 被 更 新 。 这 一 过 程 是 兴 代 进行 的 ， 并 且 在 完成 设 
定 的 时 间 步 后 结束 。 

虽然 直接 法 入 体内 核 因 为 其 O(n?) 的 开销 而 并 不 在 实践 中 采用 ， 但 是 它 仍然 用 于 在 一 个 


具有 更 低 计 算 复 杂 度 的 复杂 V 体 算法 中 计算 一 个 相同 子 域 中 的 粒子 交互 ， 这 些 算 法 包括 具 
有 O(nlogn) 复杂 度 的 Barnes-Hut 算法 或 者 其 他 方法 的 数值 近似 (例如 星 群 演化 )。 


9.2 初始 解决 方案 


Vladimirov 和 Karpusenko 在 Intel Xeon Phi 协 处理 占 上 开发 了 一 个 简单 的 直接 六 体内 
核 并 进行 了 一 些 优化 。 我 们 扩展 他 们 的 工作 ， 在 内 核 中 引入 软化 因子 ( 即 一 个 常用 来 调整 邻 
近 粒 子 间 交 互 的 常量 )， 并 考虑 具有 不 同 质 量 的 例子 。 
我 们 也 研究 了 在 单 精 度 (SP) 和 双 精 度 (DP) 计算 下 不 同 元 素数 量 配 置 下 的 性 能 
区 别 。 
图 9-1 中 展示 了 初始 解决 方案 ， 它 包括 两 个 由 Vladimirov 和 Karpusenko 提出 的 优化 。 
e 把 代码 从 数组 结构 转变 为 结构 数组 。 由 于 同一 个 域 的 元 素 位 于 内 存 中 的 连续 位 置 ， 
因此 这 个 改进 允许 更 高 效 的 癌 量 化 实现 ， 
e 通过 -fp-model fast=2 编译 选项 来 使 编译 器 生成 不 支持 IEEE 精度 的 代码 。 该 选 
项 允许 编译 器 生成 更 短 的 代码 序列 ， 但 是 这 会 导致 精度 降低 。 为 了 在 双 精 度 中 改进 
性 能 ， 我 们 显 式 要 求 使 用 单 精 度 sqrt 版 本 。 对 双 精 度 版 本 ， 即 使 调用 -fp-model 
fast-2 编译 选项 ， 编 译 器 也 会 生成 更 长 的 代码 。 
实践 中 ,我 们 发 现 将 OpenMP 循环 调度 设置 为 动态 类 型 会 达到 最 高 性 能 。 这 可 能 是 
由 于 工 2 缓存 缺失 导致 的 内 存 访 问 带 来 的 负载 不 均衡 。 也 需要 注意 ， 对 于 表达 式 1.0f/ 
sqrtfE， 编 译 融 自动 使 用 Intel Xeon Phi 协 处 理 需 提供 的 平方 根 倒数 原 语 。 
图 9-2 展示 了 N 体 模拟 的 时 间 步 长 ， 每 个 时 间 步 长 都 会 调用 上 述 内 核 函 数 ， 并 且 不 同 粒 
子 的 位 置 将 会 更 新 。 


F.=K 


y 
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template <class T> 
void computeForces (ParticleSystem<T> p, const T dt) 


int n = p.nParticles; 
#pragma omp parallel for schedule(dynamic) 
for (int i = 0; i < n; i++) 
= static cast<T>(0.0) ; 
= static cast<T>(0.0); 
= static cast<T>(0.0); 
for (int j = 0; j « mz je«) ( 
T D.X[3] = PAN]; 
T P.YIj] - p-y [i]; 
T pazi] = pezit]; 


T drSquared = dx*dx + dy*dy + dz*dz 
* p.softening; 

T drPowerN12 - 1.0f / sqrtf(drSquared); 
T drPowerN32 - drPowerN12 * drPowerN12 * 
drPowerN12; 

T s = p.m[j] * drPowerN32; 


dx * 8; Fy += dy * 8; Fz += dz * 8; 


p.vx[i] += dt*Fx; p.vyli] += dt*Fy; p.vz[i] += dt*Fz; 





图 9-1 初始 的 入 体内 核 


for (int iter = 0; iter < nIters; iter++) 
computeForces (p,dt) ; 
for (int i = 0; i « p.nParticles; i++) { 
p.xfi] += p.vx[il * dt; 


p.yli] += p.vyli] * dt; 
p.z[i] += p.vz[(i] * dt; 





9-2 时 间 循 环 步 长 


本 章 中 的 实验 平台 是 Intel Xeon Phi 协 处 理 需 7120P( 除 非 说 明 ， 和 否则 turbo 功能 始终 
关闭 )。 它 包含 时 钟 频率 为 1.23GHz 的 61 个 内 核 ， 总 共 文 持 244 个 线程 ， 单 精度 最 高 峰值 
性 能 为 2.4TFLOPS， 双 精度 为 1.2TFLOPS。 协 处 理 器 包含 16GB GDDRS 内 存 。 每 个 核 配 备 
32KB L1 缓存 和 512 KB L2 缓存 。 

编译 器 为 Intel C/C++ 14.0.2 版 本 编译 器 ， 编 译 选 项 为 -openmp -mmic -fp-model 
fast-2 -03, 测量 性 能 前 ， 执 行 一 次 未 计时 的 迭代 以 便 预 热 缓存 。 所 有 性 能 数值 的 单位 都 
是 每 秒 处 理 的 交互 数 ， 以 G 为 单位 ( 亦 即 每 秒 中 有 多 少 对 粒子 被 更 新 ， 以 十 亿 计 数 )。 为 了 
计算 GFLOPS 数 ， 这 一 数值 可 以 乘 以 20， 这 是 由 于 每 对 交互 的 计算 包含 20 个 浮 点 操作 。 

9-3 展示 了 初始 版 本 的 单 精 度 和 双 精 度 性 能 。 在 单 精 度 中 ， 虽 然 在 10000 一 60000 个 
粒子 时 的 性 能 比较 合理 ， 但 是 更 多 的 粒子 会 导致 性 能 下 降 。 对 于 双 精 度 ， 也 可 以 在 粒子 数 超 
过 40000 后 观察 到 同样 的 趋势 ， 只 是 这 种 下 降 趋 势 更 为 缓慢 。 


9.3 理论 极限 


优化 应 用 的 一 个 常见 的 问题 是 需要 理解 目标 ( 亦 即 需要 理解 何 时 需要 停止 进一步 优 
化 ? )。 我 们 可 以 构建 应 用 的 一 个 理论 模型 来 确定 需要 执行 多 少 次 操作 ， 以 及 可 能 达到 的 最 
大 性 能 (对 一 个 给 定 的 应 用 程序 也 称 为 “光速 ”)。 
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图 9-3 初始 版 本 的 单 精度 和 双 精 度 性 能 


我 们 现在 应 用 这 种 方法 到 NN 体 问题 。N 体 问 题 内 核 的 主要 计算 量 在 于 粒子 间 力 的 计算 ， 
复杂 度 为 O(n”)。 更 新 所 有 粒子 的 位 置 的 复杂 度 为 O(n)。 力 交互 的 计算 主要 是 位 于 内 层 的 j 
循环 (在 每 个 i 循环 的 末尾 进行 更 新 的 复杂 度 为 O(n))。 如 果 考 虑 图 9-1 中 的 代码 ， 在 Intel 
Xeon Phi 协 处 理 器 上 将 其 映射 到 Knights Corner 指令 集 (KNCi) 将 得 到 : 

三 次 加 法 (vsub) 

三 次 乘 加 (vfmadd) 
一 次 逆 平 方 根 (vrsqrt) 
三 次 乘法 (vmul) 

e 三 次 乘 加 (vfmadd) 

这 会 产生 图 9-4 所 示 的 单 精 度 代 码 ， 亦 即 上 述 代 码 序列 的 直接 翻译 ， 仅 增加 了 软化 数值 
的 广播 操作 。 由 于 vfmadd 指令 的 破坏 性 ， 数 值 需要 在 每 次 迭代 后 修复 。 


vsubrps ($r14,*r10,4), %zmm7, €zmm12 
vbroadcastss .L 2ilOfloatpacket.2($rip), $zmm8 
vsubrps ($r9,$r10,4), $€zmm6, %zmm13 
vfmadd23lps $zmm12, $zmm12, $zmm8 

vsubrps (rbx,%r10,4), tzmm5, %zmm15 
vfmadd23lps $zmm13, $€zmml13, %zmm8 

vfmadd23lps tzmmi5, $€zmmi15, tzmmés 


vrsqrt23ps $zmm8, £€zmm10 

vmulps ($r15,$r10,4), $zmml10, $£zmm9 
vmulps $zmm9, $zmmlO, $zmmil 

vmulps *tzmmll, ¢zmml0, £€zmml4 
vfmadd23lps £zmm12, £€zmm14, %zmm2 
vfmadd231lps $zmm13, $€zmml14, $zmml 
vfmadd23lps $zmm15, $zmml14, %zmm3 





图 9-4 没有 预 取 和 循环 计数 的 计算 交互 力 的 内 层 j 循环 的 单 精度 代码 


假设 所 有 访 存 操作 都 在 L1 缓存 中 命中 ， 每 个 指令 的 延迟 是 4 个 周期 ， 因 此 一 个 线程 的 
计算 总 共 花 费 52 个 周期 来 计算 16 个 粒子 的 交互 〈16 是 协 处 理 顺 中 单 精 度 癌 量 寄 存 占 的 宽 
度 )。 幸 运 的 是 ， 处 理 内 核 上 其 他 三 个 线程 可 以 完美 地 填 满 空闲 的 计算 周期 。 因 此 对 于 每 个 
内 核 的 4 个 线程 ， 它 用 56 个 周期 来 计算 64 个 粒子 的 交互 (除了 最 后 一 次 迭代 ， 它 还 需要 3 
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个 周期 来 完成 所 有 线程 的 计算 。 对 于 大 量 粒 子 的 情况 ,我 们 可 以 忽略 这 一 开销 )。 因 此 ， 每 
个 周期 每 个 内 核 计 算 1.142 个 单 精 度 粒 子 交 互 。 

对 双 精 度 而 言 ， 我 们 可 以 在 打包 的 双 精 向 量 上 使 用 同样 的 代码 ， 除 了 计算 平方 根 倒 数 操 
作 之 外 ， 向 量 宽度 均 为 8。 第 一 代 Intel Xeon 
Phi 协 处 理 器 只 支持 单 精 度 vrsqrt, 因此 双 vcvtpd2ps pe $zmm5, $zmml4 


vcvtpd2ps irn *$zmm3, %zmm4 


精度 向 量 需 要 转变 为 单 精 度 向 量 。 如 果 我 们 vblendmps %zmm4, %zmm6, alae ie 


Sk1 


vpermf32x4 $68, $zmml4, %zmm15 


循环 展开 循环 为 2. 可 以 打包 16 AT TOR s By vrsqrt23ps £*zmm15, %zmm16 


从 两 个 双 精 度 回 量变 为 一 个 单 精度 回 量 并 调 Sa 3 
用 vrsqrt。 图 9-5 展示 了 计算 平方 根 倒数 以 | Vevepezpa szmm17，$Zzmm22 

及 双 精 度 变 换 的 代码 ， 这 需要 36 个 周期 。 
使 用 循环 展开 ， 需 要 额外 的 104 个 周期 ， 因 
此 每 个 使 用 4 线程 的 处 理 器 内 核 一 共 需 要 140 个 周期 来 计算 64 个 元 素 。 双 精度 情况 下 每 个 
周期 每 个 内 核 平均 处 理 0.457 个 粒子 交互 。 

下 一 代 Intel Xeon Phi 协 处 理 器 Knights Landing 将 会 支持 AVX-512 指令 集 ， 它 包含 双 
精度 平方 根 倒数 指令 。 这 将 会 使 双 精 度 中 的 交互 次 数 提高 到 每 个 周期 每 个 内 核 处 理 0.571 次 
交互 ， 并且 消除 双 精 度 转换 为 单 精度 时 的 损失 。 

结合 这 个 成 本 模型 以 及 内 核 数 量 和 每 个 不 同 Intel Xeon Phi 协 处 理 器 的 时 钟 频率 ， 我 们 
可 以 得 到 每 秒 可 以 处 理 的 最 大 交互 次 数 ， 结 果 如 图 9-6 所 示 。 


最 大 值 每 秒 交 互 最 大 值 每 秒 交 互 
模型 ”| 内 核 | 频率 (GHz) | KRW ( 以 G 为 单位 ) | RH ( 以 G 为 单位 ) 
( 单 精 度 ) ( 双 精 度 ) 


1238 
7120x | 61 1.333 92.9 37.2 
(具有 
turbo) 

EN 
3120x 


图 9-6 不 同 Intel Xeon Phi 协 处 理 器 上 每 秒 处 理 的 交互 次 数 上 界 (LA 10 为 单位 ) 


从 图 9-6 中 所 示 的 最 优 上 界 可 知 ， 最 初版 本 的 性 能 仍然 有 较 大 的 提升 空间 。 单 精度 性 能 
是 每 秒 52.7 x 10” 次 交互 ， 上 界 是 85.7 (61%)。 双 精度 性 能 是 每 秒 20.5 x 10? KZH, EF 
是 34.3 (5994), 


9.4 降低 开销 和 对 齐 数 据 


下 一 个 优化 解决 了 检查 初始 代码 后 发 现 的 两 个 问题 。 

e OpenMP 的 parallel 构件 位 于 computeForces 例 程 的 内 部 。 这 有 两 点 影响 。 首 先 ， 更 
新 位 置 向 量 的 操作 将 会 被 序列 化 ， 由 于 computeForces 的 复杂 度 占 支配 地 位 ， 所 以 这 
点 并 无 大 碍 ， 但 是 当 粒 子 数目 较 少 时 会 导致 性 能 显著 降低 。 其 次 ， 每 一 个 时 间 步 长 
都 会 产生 并 行 区 域 。 虽 然 Intel OpenMP 运行 时 维持 底层 线程 的 运行 并 且 可 以 重用 ， 
但 是 这 仍然 会 在 粒子 数量 较 少 时 导致 不 可 忽视 的 开销 。 





图 9-5 在 双 精 度 (具有 受 限 的 精度 ) 中 使 用 vrsqrt 
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e 数据 不 是 对 齐 的 ， 也 不 会 指示 编译 需 发 布 对 齐 指 令 。 对 于 编译 央 而 言 ， 数 据 对 齐 是 
保证 其 产生 对 齐 的 癌 量 内 存 操作 读 写 和 在 疝 量 操作 上 使 用 内 存 操作 数 的 关键 。 没 有 
数据 对 齐 ， 我们 无 法 使 用 前 一 节 中 提 到 的 最 优 的 指令 序列 。 

图 9-7 展示 了 这 一 版 本 中 的 初始 化 和 时 间 步 长 代码 的 变化 。 数 据 通过 调用 mm malloc 

来 保证 对 齐 。OpenMP 的 parallel 构件 放置 在 外 层 循 环 ， 并 且 在 更 新 粒子 位 置 的 代码 中 放置 
OpenMP 的 for 构件 。 注 意 ， 每 个 for 循环 尾部 的 隐 式 栅栏 会 导致 线程 间 同 步 的 迭代 (每 个 线 
程 似乎 有 相同 的 iter 数值 并 且 和 迭代 相同 的 次 数 )。 


. = (T *) mm malloc (bytes, 64); 


#pragma omp parallel 
for (int iter = 0; iter « nIters; iter++) 


computeForces (p,dt); 

#pragma omp for 

for (int i = 0; i < p.nParticles; i++) { 
p.x[i] += p.vx[3i] * dt; 
p.yli] += p.vyli] * dt; 
p.z[i] += p.vz[i] * dt; 





图 9-7 第 二 个 版 本 的 初始 化 和 时 间 步 长 循环 


图 9-8 展示 了 computeForeces 内 核 的 变化 ， 代 码 使 用 OpenMP 的 for 构 件 而 不 是 
parallel 构件 。vector aligned 语句 用 来 指示 编译 项 只 发 出 对 齐 数据 的 代码 ， 这 意味 着 数据 必 
须 对 齐 ， 否 则 程序 将 会 出 现 硬件 异常 。 


template <class T> 
void computeForces (ParticleSystem<T> p, const T dt) 


int n = p.nParticles; 
#pragma omp for schedule (dynamic) 
for (int i = 0; i « n; i++) 


#pragma vector aligned 
for (int j = 0; j < n; j++) { 





图 9-8 第 二 个 版 本 的 入 体内 核 代 码 


9-9 和 图 9-10 分 别 展 示 了 单 精 度 和 双 精 度 性 能 。 点 线 表示 前 一 节 计 算得 到 的 性 能 上 界 。 
可 以 看 到 ， 当 粒子 数目 较 少 时 ， 特 别 是 针对 单 精 度 而 言 ，parallel 构件 移动 到 外 层 循环 使 性 能 
提高 。 使 用 对 齐 指令 也 极 大 地 增加 了 单 精度 (最 高 到 67.5 ) 和 双 精 度 (最 高 到 26.9 ) 的 性 能 。 

即使 应 用 这 些 优 化 ， 性 能 依然 会 在 大 臻 相同 的 粒子 数 时 降低 ， 这 又 是 什么 因素 导致 的 呢 ? 

利用 Intel VTune Amplifier 分 析 程 序 可 知 ，L2 间 存 在 极 大 的 数据 传输 。 图 9-11 展示 了 
L2 间 传 输 数 的 占 比 ,， 左 侧 > 轴 是 所 有 请 求 的 百分比 数量 ， 并 且 也 展示 了 每 个 内 核 的 四 个 内 
层 7 循环 AM yA) 数组 的 L2 的 空间 需求 。 图 9-11 还 展示 了 即使 对 于 粒子 数目 为 40000 
这 么 小 的 数量 ，L2 缓存 也 已 经 用 尽 。 由 于 需求 的 数据 通常 来 自 于 其 他 内 核 的 L2 缓存 ， 因 此 
也 导致 L2 间 传 输 的 增加 。 从 其 他 内 核 的 L2 缓存 读 取 数据 要 快 于 从 内 存 中 读 取 数据 。 但 是 
数据 传输 的 次 数 随 着 粒子 数 的 增加 而 增加 ， 并 且 会 导致 程序 性 能 下 降 。 


130 


W 


每 秒 交互 次 数 〔〈 以 10? 为 单位 ) 





0 
oe Pl a SS Fi on s Ps s sj. Fu F S 
“外 层 并 行 化 ” 一 一 “数据 对 齐 ” 


图 9-9 第 二 个 版 本 代码 的 单 精 度 性 能 
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图 9-10 第 二 个 版 本 的 双 精 度 性 能 
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图 9-11 第 二 个 版 本 的 工 2 访 存 压力 
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9.5 ”优化 存储 层次 


我 们 利用 熟知 的 循环 分 块 技 术 来 提高 局 部 性 以 及 更 高 效 地 在 每 个 i 循环 迭代 中 重用 粒 
To WAHR, RITE i 循环 和 j 循环 使 用 正方 形 分 块 ， 粒 子 数 大 小 为 BF。 每 个 分 块 都 分 配给 
一 个 线程 ， 如 果 分 块 大 小 合适 , j 分 块 的 元 素 将 会 在 i 分 块 所 有 的 元 素 上 重用 ， 避 人 免 了 被 替 
换 出 缓存 。 这 将 提高 数据 局 部 性 。 

图 9-12 展示 了 这 一 内 核 代 码 的 优化 ， 以 及 分 块 因子 的 计算 。OpenMP 的 collapse 语句 
用 于 for 语句 中 以 便 将 所 有 分 块 分 配给 线程 。 由 于 多 线程 可 能 同时 更 新 速度 癌 量 ， 因 此 需要 
利用 OpenMP 原子 构件 。 由 于 原子 操作 位 于 i 层 循环 ， 因 此 可 以 预计 其 将 不 会 导致 更 大 的 性 
能 下 降 。 


int align = CACHELINE SIZE/sizeof (T); 

BF - nParticles / sqrt(omp get max threads()) / 4; 

BF = (BF+align-1)/align * align; 

if ( BF > max block«T»::value ) BF = max block«T»::value; 


int n - p.nParticles; 
#pragma omp for collapse (2) 
for ( int ii = 0; ii < n ; ii += BF ) 
for ( int jj = 0; jj « n; jj += BF) { 
int imax = min(ii+BF,n); 
int jmax = min(jj+BF,n) ; 
for (int i = ii; i < imax ; i++) { 


#pragma vector aligned 
for (int j = jj; j < jmax; j++) { 


#pragma omp atomic 
p.vx[i] += dt*Fx; 
#pragma omp atomic 
p.vy[i] += dt*Fy; 
#pragma omp atomic 
p.vz[i] += dt*Fz; 





图 9-12 ”二 维 分 块 N 体内 核 代 码 


注意 ， 这 里 删除 了 动态 调度 语句 ， 这 是 由 于 使 用 默认 的 静态 调度 能 获得 更 好 的 性 能 。 我 
们 认为 这 是 由 于 改进 的 内 存 行为 已 经 避免 了 前 面 由 于 线程 访问 核 间 互联 的 负载 不 均衡 ， 于 是 
不 再 需要 动态 调度 来 均衡 线程 之 间 的 工作 负载 。 

选择 合适 的 分 块 大 小 BF 是 一 项 需要 技巧 的 问题 。 在 每 个 迭代 中 ， 我 们 需要 访问 三 个 
分 块 : i 分 块 、 当 前 的 j 分 块 以 及 下 一 次 迭代 需要 预 取 的 j 分 块 。 处 理 器 内 核 上 4 个 线程 中 的 
每 一 个 都 利用 一 个 包含 4 个 向 量 (x、y、z 和 m) 的 分 块 。 一 种 简单 的 计算 方法 是 : 

L2 大 小 

向 量 数 * 每 个 内 核 的 线程 数 * 类 型 的 大 小 * 分 块 数 

因此 ，512KB 大 小 的 L2 缓存 意味 着 最 大 的 单 精度 分 块 大 小 为 2730 个 元 素 ， 双 精度 时 
元 素 个 数 减 半 。 

男 一 个 影响 分 块 大 小 的 因素 是 BF 必须 是 数据 对 齐 类 型 的 整数 倍 ， 否 则 每 个 分 块 中 的 一 
些 元 素 需 要 在 分 块 主要 回 量化 部 分 的 前 面 和 后 面 进行 单独 处 理 。 因 此 分 块 大 小 不 是 对 齐 数据 
类 型 的 整数 倍 时 会 导致 极 大 的 开销 。 同 时 考虑 这 些 因素 ， 我 们 需要 选择 最 大 的 单 精 度 分 块 大 
小 为 2688， 双 精度 时 元 素 个 数 减 半 。 


BF = 
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压缩 和 并 行 化 分 块 循环 也 意味 着 总 共 可 以 分 配给 线程 的 可 用 迭代 次 数 减 少 分 块 大 小 1/ 
BF， 在 粒子 数目 较 少 时 会 导致 数目 低 于 可 用 线程 总 数 。 例 如 30000 个 粒子 使 用 最 大 分 块 
大 小 时 ， 可 分 配给 线程 的 迭代 数目 为 144， 它 小 于 Intel Xeon Phi 协 处 理 器 上 的 可 用 线程 
数目 。 

为 了 避免 这 种 情况 ， 需 要 计算 能 保证 每 个 可 用 线程 至 少 处 理 一 个 或 多 个 迭代 的 分 块 大 
小 ， 这 可 以 利用 下 式 得 到 

BF = min [sor nParticles | 
J 线程 数 * 松弛 因子 

公式 中 的 松弛 因子 (slack factor) 用 来 保证 每 个 线程 至 少 有 一 次 或 多 次 进 代 ， 降 低 了 负 
载 不 均衡 可 能 的 影响 ， 这 里 设置 松弛 因子 为 4。 

男 一 个 需要 进一步 考虑 的 优化 是 利用 L2 缓存 在 同一 个 处 理 需 内 核 的 所 有 线程 间 共 享 这 
一 特性 ， 我 们 可 以 将 同一 个 分 块 分 配给 处 理 器 内 核 中 的 所 有 线程 (而 不 是 为 每 个 线程 分 配 一 
个 分 块 )。 共 享 分 块 意味 着 L2 缓存 空间 可 以 支持 更 大 的 分 块 ， 这 一 方式 可 以 使 需要 填 满 整个 
协 处 理 器 的 并 行 任 务 数量 降低 1/4。 考 虑 所 有 这 些 因 素 ， 单 精度 情况 下 使 用 的 最 大 BF 值 为 
4096， 双 精度 时 元 素 个 数 减 半 。 

但 是 ，OpenMP 对 没有 使 用 藤 套 并 行 的 共享 分 块 方式 仅 提供 有 限 的 支持 。 当 前 OpenMP 
实现 版 本 中 藤 套 并 行 的 开销 较 大 ， 因 此 ， 我 们 设计 了 如 图 9-13 所 示 的 一 个 版 本 ， 即 循环 压 
缩 和 工作 分 配 通过 手工 方式 实现 。 核 心 在 于 外 层 循 环 的 分 配 使 用 内 核 标 识 符 完 成 ， 因 此 同一 
处 理 器 内 核 上 的 所 有 线程 将 会 得 到 同样 的 迭代 任务 ， 并 且 内 层 i 循环 线程 通过 内 核 标 识 符 和 
间隔 大 小 4 来 处 理 不 同 的 迭代 。 注 意 ， 这 个 版 本 的 优化 代码 假定 OpenMP 线程 连续 地 位 于 
协 处 理 器 硬件 线程 上 ， 这 可 以 利用 KMP_AFFINITY 环境 变量 实现 。 


core = omp get thread num() / core; 

// compute thread number inside core 

cid - omp get thread num() $ 4; 

// compute core start and core end as in schedule(static) 


for ( 1 = core start; 1 < core end ; l++ ) { 
int ii - (1/nb) * BF; 
int jj = (l%nb) * BF; 


int imax = min(ii+BF,n); 
int jmax = min(jj-*BF,n); 
for ( int i = ii+cid; i < imax ; i«- 4) { 


#pragma vector aligned 
for (int j = jj; j < jmax; j++) { 





图 9-13 ”每 个 分 块 使 用 多 线程 的 N 体 问 题 代码 


图 9-14 和 图 9-15 分 别 展示 了 单 精度 和 双 精 度 下 的 两 种 分 块 方法 (具有 内 核 内 并 行 性 以 
及 不 具备 该 并 行 性 ) 的 性 能 结果 。 注 意 ， 两 种 版 本 的 性 能 都 随 着 粒子 数目 的 增加 而 增加 。 但 
是 只 有 在 粒子 数目 非常 大 时 其 性 能 才 超 越前 一 版 本 。 为 了 实现 最 优 的 应 用 程序 性 能 ， 两 个 版 
本 需要 同时 支持 粒子 数目 很 小 以 及 非常 大 的 两 种 情况 。 另 外 注意 ， 利 用 内 核 内 并 行 性 的 单 精 
度 版 本 性 能 更 好 ， 但 是 双 精 度 版 本 的 性 能 更 稳定 。 
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图 9-14 单 精 度 分 块 版 本 的 性 能 
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每 秒 交 互 次 数 〈 以 103 为 单位 ) 


粒子 数 
一 一 前 一 版 本 一 “分 块 版 本 ”一 一 “分 块 内 核 并 行 版 本 ” 
图 9-15 双 精 度 分 块 版 本 的 性 能 


9.6 改进 分 块 


另 一 种 方法 是 使 用 两 个 不 同 的 分 块 因 ee ac 
f: BFI 是 i 层 循环 的 分 块 因子 , BEIÁR | for (int ii = 0; ii <n ; ii += BFI) | 


imax = min(n,ii+BFTI) ; 


层 循 环 的 分 块 因 子 。 使 用 两 种 分 块 因子 意 for ( int jj = 0; jj « n; jj #= BFI) 


Š 4 MEM A— j = j ( ' 1j BFJ) ; 
味 着 i 层 循环 可 以 选择 提供 足够 多 的 并 行 mari oe ae e ak Boe 
性 以 避免 使 用 OpenMP 的 collapse 语句 ， #pragma vector aligned | 
同时 也 提供 选择 7 循环 分 块 大 小 的 随意 性 ， ee PORC Soupe qoe 


允许 优化 L2 缓存 的 访问 。 
图 9-16 展示 了 实现 这 种 方案 的 入 体 
问题 内 核 代码 。 由 于 只 有 一 个 线程 处 理 每 图 9-16 具有 两 个 分 块 因子 的 入 体内 核 函 数 


{ 


{ 
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个 i 迭代 ， 因 此 这 里 可 以 删除 原子 语句 。 

图 9-17 展示 了 BFI 和 BFJ 分 块 因子 的 计算 过 程 。BFI 根据 所 有 线程 在 立 循 环 上 都 只 拥 
有 一 次 ; 和 迭代 进行 计算 ， 并 且 保 证 缓存 行 对 齐 以 便 改 进 性 能 。 缓 存 行 对 齐 的 一 个 不 利 影 响 是 
有 些 线程 可 能 没有 足够 的 迭代 计算 ， 因 此 缓存 对 齐 的 分 块 大 小 及 其 导致 的 负载 不 均衡 间 需 
要 进行 权衡 。 通 过 观察 可 知 ， 当 对 齐 的 缓存 大 小 导致 最 多 2% 的 负载 不 均衡 时 性 能 最 优 。 否 
则 ， 需 要 选择 保证 最 大 负载 均衡 的 非 对 齐 分 块 大 小 。 


int nthreads = omp get max threads(); 
BFI unaligned = (nParticles-«nthreads-1) /nthreads; 


int align = CACHELINE SIZE/sizeot (T); 
BFI = (BFI_unaligned+align-1) /align*align; 


int iters - nParticles / BFI; 

if ( nParticles $ BFI != 0 ) iters++; 

float balance - ((float) iters) / nthreads; 
if ( balance « 0.98 ) BFI - BFI unaligned; 


BFJ - bf«T»::max value; 

float 

12 ocupancy-((float)nParticles)*sizeof (T)*4)/(512*1024); 
if ( 12, ocupancy « 4 ) BFJ *- 2; 

if ( 12 ocupancy < 2 ) BEG *e 2; 





图 9-17. NAAR RHE TAS RA TRI EE EE 


对 单 精 度 而 言 ，BFI 选 为 4096， 对 双 精 度 而 言 是 2048。 下 面 建议 一 个 附加 的 优化 : 在 
不 同 的 时 间 点 ， 同 一 个 处 理 器 内 核 上 的 线程 在 遍历 j 循环 时 ， 可 能 会 使 用 相同 的 数据 ， 这 种 
内 核 内 数据 共享 的 概率 随 着 模拟 中 粒子 数目 的 降低 而 增加 。 特 别 地 ， 当 工作 集中 总 粒子 数目 
不 是 L2 大 小 的 4 倍 时 ， 至 少 有 两 个 线程 共享 粒子 。 当 工作 和 集 大 小 小 于 L2 大 小 的 两 倍 时 ，4 
个 线程 都 将 共享 粒子 数据 。 这 种 情况 下 需要 增加 分 块 大 小 两 倍 或 者 四 倍 。 

图 9-18 和 图 9-19 分 别 展示 了 使 用 上 一 段 中 BFI 和 BFJ 两 个 分 块 因子 大 小 的 性 能 。 特 别 
是 ， 在 粒子 数 较 小 时 模拟 程序 性 能 有 较 大 的 提升 ， 并 且 在 粒子 数目 较 大 时 性 能 也 有 一 定 的 提 
升 。 只 有 在 粒子 数 小 于 5000 的 情况 下 ， 未 分 块 版 本 的 性 能 最 优 。 


每 秒 交互 次 数 ( 以 10? 为 单位 ) 
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图 9-18 不 同 优 化 步 的 单 精 度 性 能 
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粒子 数 
一 一 “初始 版 本 ” ”一 一 未 分 块 版 本 — 分 块 版 本 — 最 终 版 本 
图 9-19 不 同 优化 步 的 双 精 度 性 能 


通过 本 章 介绍 的 一 系列 优化 过 程 ， 单 精度 和 双 精 度 的 性 能 都 达到 了 性 能 模型 预测 理论 
峰值 的 89%。 单 精度 性 能 达到 了 每 秒 处 理 76.3 x 10 次 交互 数 ， 双 精度 性 能 达到 了 每 秒 处 理 
30.6 x 10° 次 交互 。 

用 绝对 性 能 表示 ， 单 精度 版 本 达到 1.53TFLOPS, ， 即 协 处 理 器 峰值 性 能 的 63.72% ; XX 
精度 版 本 达到 612GFLOPS, ， 即 协 处 理 器 峰值 性 能 的 50.9%. 


9.7 主机 端的 优化 


图 9-1 和 图 9-2 所 展示 的 初始 版 本 没有 附加 任何 体系 结构 信息 。 你 可 能 希望 得 知 前 面 小 
节 中 的 一 系列 优化 如 何 影响 了 Intel Xeon Phi 协 处 理 器 上 最 终 体内 核 函 数 的 性 能 。 

图 9-20 和 图 9-21 ÆR T IURA E5-2697v2 Intel Xeon 处 理 器 上 V 体 问题 初始 版 本 以 及 
图 9-16 和 图 9-17 中 展示 的 最 终 版 的 性 能 对 比 ， 该 系统 总 共有 24 个 处 理 器 内 核 ， 每 个 内 核 
上 有 两 个 线程 。 代 码 没 有 任何 变化 ， 只 是 编译 选项 将 -mmic 变 为 -xHost。 所 有 的 48 个 线程 
都 被 用 到 以 便 获 得 最 大 性 能 。 
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可 以 看 到 ， 在 图 9-20 和 图 9-21 中 ， 对 单 精 度 和 双 精 度 大 概 都 有 10% 的 性 能 提升 ， 这 
种 提升 来 自 数 据 对 齐 以 及 使 用 对 齐 的 向 量 指令 。 如 果 查 看 最 初版 本 的 性 能 ， 对 于 大 规模 粒子 
数 并 没有 像 协 处 理 器 上 程序 那样 的 性 能 下 降 。 这 表明 在 Xeon 处 理 器 上 运行 时 ， 提 供 处 理 器 
内 核 所 需要 的 数据 并 不 需要 过 多 的 优化 (这 可 以 部 分 地 解释 为 ， 由 于 访 存 压力 较 小 并 且 配 置 
最 后 一 层 共 享 缓 存 会 得 到 更 好 的 性 能 )， 并 且 这 样 解 释 了 为 何 循环 分 块 没有 影响 性 能 CE E 
高 了 Ll 和 L2 缓存 的 命中 率 ， 但 是 并 没有 转变 为 性 能 提升 )。 其 他 优化 也 没有 提升 或 者 降低 
性 能 ， 因 此 我 们 有 一 个 在 主机 端 和 协 处 理 咒 端 均 高 效 运行 的 内 核 版 本 。 
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本 章 展 示 了 一 个 Intel 众 核 处 理 架 构 上 优化 的 和 体内 核 代 码 。 该 优化 版 本 在 传统 处 理 需 
上 也 获得 了 性 能 提升 。 在 Intel Xeon Phi 协 处 理 器 上 的 重要 优化 包括 : 

e 高效 癌 量 化 ， 合 适 的 数据 对 齐 ， 使 用 向 量 超越 哨 数 和 数据 布局 。 

e 提供 足够 的 并 行 性 ， 降 低 开 销 ， 避 免 负载 不 均衡 。 

e 通过 循环 分 块 来 有 效 利 用 存储 层次 。 

这 些 优化 使 单 精 度 最 大 性 能 为 从 每 秒 处 理 52.7 x 10° 次 交互 计算 增加 到 76.3 x 10° 次 
(44% 的 提升 )， 双 精度 最 大 性 能 为 每 秒 处 理 20.5 x 10° 次 交互 计算 增加 到 30.6x 10° 次 (66% 
的 提升 )。 使 用 同样 的 代码 ， 这 些 优 化 也 在 Intel Xeon 处 理 器 上 获得 了 1096 的 性 能 提升 。 

本 章 也 讨论 了 如 何 快速 为 优化 过 程 确 定 一 个 目标 ， 最 终 的 优化 版 本 达到 了 峰值 上 界 的 
89%， 因 此 这 是 一 个 较为 合理 的 终点 。 

我 们 还 展示 了 在 Intel Xeon Phi 协 处 理 器 上 的 所 有 这 些 优 化 也 能 够 在 Intel Xeon Lb FE $$ 
上 获得 性 能 提升 。 


9.9 更 多 信息 
下 面 是 有 关 本 章 讨论 内 容 的 附加 阅读 材料 的 列表 : 


e Vladimirov,A.,Karpusenko,V.,2013.Test-driving Intel® Xeon Phi TM coprocessors with a 
basicN-body simulation. http://research.colfaxinternational.com/post/2013/01/07/Nbody- 
Xeon-Phi.aspx. 


N-Body problem, http://en.wikipedia.org/wiki/N-body problem. 


Arora,N.,Shringarpure,A., Vuduc,R.W.,2009. Direct N-body kernels for multicore platforms. 
In the International Conference on Parallel Processing ICPP’09. 


Rodionov,S.A.,Sotnikova,N.Ya.,2005. Optimal choice of the softening length and time 
step inN-body simulations. Astronomy Reports 49 (6),470-476. 

Loop tiling, http://en.wikipedia.org/wiki/Loop tiling. 

本 章 及 其 他 章 的 代码 下 载 地 址 http://lotsofcores.com. 
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本 草 讨论 的 优化 技术 包括 使 用 编译 器 选项 及 指令 ， 对 代码 进行 最 小 的 修改 以 提高 性 能 。 
本 章 将 展示 无 须 重 写 代 码 ， 编 译 右 即 可 产生 融合 的 乘 加 以 及 平方 根 倒数 操作 ， 并 展示 双 循 
环 的 外 层 循环 仅 通 过 简单 的 编译 指令 即 可 向 量化 。 本 章 将 比较 使 用 编译 指令 产生 的 代码 及 
(EHAE RK% (intrinsic) 手工 调 优 的 代码 ， 也 将 比较 同一 代码 分 别 在 Intel Xeon 处 理 器 和 
Intel Xeon Phi 协 处 理 硕 上 的 性 能 。 无 需 重 写 友 有 C 代码 ， 本 章 将 使 程序 在 协 处 理 咒 上 达到 
L.STFLOPS 的 单 精 度 性 能 。 本 章 将 使 用 直接 N 体 方法 来 证 明 上 述 优化 的 效果 。NX 体 方法 传 
统 上 应 用 于 基于 粒子 的 模拟 ， 比 如 天 体 物 理学 和 分 子 模拟 ， 近 期 扩展 到 求解 更 一 般 形 式 的 
偶 微 分 方程 。 关 于 这 些 使 用 的 参考 内 容 可 以 查看 10.6 节 。 由 于 每 加 载 4V 个 浮 点 数 要 执行 
20N’ 操作 ， 因 此 N 体 方法 的 内 核 具 有 高 计算 强度 。 比 较 N 体 方法 与 矩阵 乘法 可 以 发 现 ，N 
体 方法 的 浮 点 操作 / 字 节 比率 更 高 。 这 种 高 强度 计算 使 N 体 方法 在 未 来 体系 结构 中 仍 将 在 计 
算 上 受 限 。 本 章 将 重点 研究 N 体 方法 在 Intel Xeon Phi 协 处 理 器 上 的 优化 ， 并 展示 这 些 优 化 
在 Intel Xeon 处 理 硕 上 的 效果 。 


10.1 快速 N 体 方法 和 直接 N 体内 核 


直接 体内 核 计 算 所 有 NN 个 主体 与 NN 个 主体 成 对 的 相互 作用 ， 因 此 运算 量 为 0 (入 )。 
据 Barnes 等 人 所 述 ( 见 10.6 15), 快速 近似 法 使 用 主体 的 层次 化 域 分 解法 ， 以 及 内 核 的 截 
断 级 数 展开 可 以 使 操作 量 降 到 O ( NlogN) 其 至 O(N)。 这 种 O CN) 的 方法 通常 称 为 快速 多 
极 方法 ( Fast Multipole method, FMM)。 这 种 快速 N 体 法 背后 的 原理 是 ， 远 场 的 主体 不 必 单 
独 考 虑 ， 而 是 分 成 多 极 。 然 而 ， 近 场 的 主体 仍 必须 使 用 直接 N 体内 核 进行 准确 计算 。 因 此 ， 
直接 入 体内 核 的 性 能 对 快速 入 体 法 是 至 关 重 要 的 。 

计算 复杂 性 指 当 问题 规模 增 大 时 所 执行 计算 操作 的 渐 近 量 。 计 算 强 度 指 每 次 加 载 的 数据 
量 所 需 执 行 的 计算 操作 量 。 结 合 FMM 的 O CN) 最 优 复杂 度 以 及 其 中 直接 N 体内 核 的 高 计 
算 强 度 使 FMM 成 为 未 来 体系 结构 上 很 多 算法 有 趣 的 替代 品 。 这 是 因为 类 似 稠密 线性 代数 的 
常规 高 计算 强度 算法 也 易 具 有 高 计算 复杂 性 。 这 些 算法 在 计算 上 是 受 限 的 ， 可 以 利用 大 多 数 
的 运算 单元 ， 但 开始 阶段 在 计算 上 的 花费 是 非常 昂贵 的 。 另 一 方面 ， 那 些 具 有 低 计算 复杂 性 
的 方法 ， 比 如 快速 傅 里 叶 变 换 (FFT) 和 稀 朴 线性 代数 ， 运 算 强 度 低 。 它 们 非常 有 效 ， 但 不 
能 达到 现代 处 理 器 峰值 运算 性 能 的 较 高 百分比 。FMM 非常 好 地 结合 了 O CN) 的 复杂 性 及 比 
和 矩阵 乘 还 要 高 的 计算 强度 ， 这 意味 着 入 体 方 法 提供 了 一 个 随 问 题 规模 顺利 扩展 的 有 效 算法 ， 
但 在 接 下 来 几 十 年 的 未 来 体系 结构 上 仍 将 在 计算 上 受 限 。 

HARE NAW KIRA DIM FMM 分 离 ， 因 为 它 通 常 在 邻居 查找 例 程 中 作为 一 个 函数 调用 ， 
这 个 函数 调用 占用 了 FMM 大 部 分 的 执行 时 间 。 因 此 ， 如 果 能 够 优化 直接 入 体内 核 ， 它 就 
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可 以 目 动 优化 FMM 的 热点 。 直 接 入 体内 核 只 有 几 十 行 代码 ,即使 在 汇编 级 优化 工作 量 也 不 
大 。 本 章 将 通过 一 个 非常 具体 的 例子 来 展示 只 用 编译 各 选项 可 以 达到 的 性 能 ， 然 后 介绍 如 何 
使 用 内 置 函 数 从 直接 N 体内 核 中 取得 更 多 性 能 。 


10.2 N A71 iE B NE FH 


在 物理 现象 本 身 可 以 描述 为 离散 点 集 时 ，N 体 方法 可 以 目 然 地 应 用 到 这 类 问题 ， 甚 至 早 
于 数值 离散 化 。 引 力 或 静电 力 下 的 多 体 问 题 是 一 个 典型 的 例子 ， 恒 星 和 原子 可 分 别 表示 为 质 
量 和 静电 和 荷 的 点 源 。N 体 方法 可 以 通过 离散 化 从 离散 场 延 伸 到 连续 场 ， 使 得 这 些 方 法 可 用 于 
解决 结构 力学 、 流 体力 学 、 电 磁 学 、 声 学 ， 甚 至 量子 力学 中 的 问题 ， 但 适用 性 并 不 意味 着 它 
是 解决 特定 问题 的 最 佳 方法 。 

快速 N 体 法 适用 于 几何 信息 动态 变化 的 应 用 中 。 如 果 几 何 信 息 是 静止 的 ， 更 明智 的 方 
法 是 将 这 一 信息 存储 在 矩阵 形式 中 ， 并 在 该 同一 矩阵 反复 执行 稠密 或 稀 臣 线性 代数 操作 。X 
体 法 可 以 视 为 “无 矩阵 ” 法， 在 该 方法 中 ， 和 矩阵 将 在 与 源 点 癌 量 相 乘 之 前 动态 形成 。 很 明显 ， 
这 种 方法 仅 当 和 矩阵 /几何 信息 频繁 变化 时 才 发 挥 优势 ， 因 为 此 时 存储 这 些 信 息 不 会 节省 任何 
计算 。 基 于 粒子 的 方法 正 是 这 种 情况 ， 因 为 每 个 时 间 步 长 粒子 的 位 置 都 会 前 进 。 如 果 系 统 是 
非常 动态 的 ， 自 适应 网 格 细 化 也 可 能 导致 相似 的 几何 信息 更 新 量 。 

有 很 多 因素 能 够 影响 X 体 方法 与 其 他 椭圆 偶 微 分 方程 (Partial Differential Equation, 
PDE) 解法 的 比较 优势 ， 比 如 FFT 和 多 网 格 法 。 渐 近 常 量 在 决定 这 些 不 同 O(N) 或 O(N 
log N) 算法 的 相对 性 能 时 起 到 关键 作用 。 众 所 周知 ，FFT 最 少 可 达到 2NlogN 次 操作 ， 多 网 
格 法 最 少 可 达到 5N 次 操作 。 而 典型 FMM 的 渐 近 常量 要 大 得 多 ,但 在 指示 点 位 置 时 使 用 平 
移 或 转动 对 称 性 能 显著 减少 这 一 凋 量 。 

很 难 比 较 FFT MFMM, AA FFT 对 每 个 未 知 数 有 更 高 的 空间 分 辨 率 ， 因 此 AN 相同 时 
的 比较 并 不 公平 。 但 对 于 有 局 部 特征 或 非 连续 的 场 ，FFT 的 同 构 空 间 分 辨 率 无 疑 成 了 劣势 。 
此 外 ， 当 通过 指示 点 位 置 将 平移 或 转动 对 称 性 应 用 于 FMM 时 ，FMM 可 以 使 用 BLAS 3 操 
作 ， 比 多 网 格 法 更 加 有 效 。 因 此 在 这 种 情况 下 ， 解 决 相同 精度 的 相同 问题 时 FMM 比 多 网 格 
ER. 

传统 的 FMM 需要 格林 函数 解 ， 因 此 它 能 够 处 理 的 科学 应 用 类 型 仅 限于 那些 有 格林 函数 
的 应 用 。 将 FMM 泛 化 到 矩阵 的 层次 化 低 阶 近似 使 相同 的 框架 能 够 应 用 到 更 广泛 的 应 用 。 这 
些 方法 使 用 例如 显 秩 (rank-revealing) QR， 截 断 奇 异 值 分 解 (truncated SVD),， 或 目 适 应 交 
义 近 似 的 低 阶 近似 方法 ， 而 不 是 多 极 扩 展 。 这 使 FMM 不 再 依赖 于 格林 水 数 的 存在 性 ， 从 而 
可 以 应 用 在 原始 FMM 无 法 解决 的 问题 ， 例 如 变 系数 柏 松 方程 或 协 方差 矩阵 。 

在 预测 FFT. FMM 及 多 网 格 在 未 来 体系 结构 上 的 性 能 时 ,一 个 有 用 的 指示 费 是 通信 复 
杂 性 ， 因 为 当 任 何 算 法 达到 并 行 可 扩展 的 极限 时 ， 通 信 都 会 成 为 瓶颈 。FFT 对 d 维 分 解 的 通 
信 复 杂 性 是 0O( P“)， 多 网 格 的 通信 复杂 性 是 O (logP)。 我 们 最 近 证 明了 FMM 的 通信 复杂 
性 也 是 O (logP)。 因 此 ，FMM 和 多 网 格 都 是 通信 最 优 的 ，FMM O (logP) 的 证 明 也 可 以 扩 
展 到 它 的 代数 变 体 。 


10.3 ”直接 入 体 代码 


本 市 将 展示 一 个 直接 X 体 内核 的 例子 ， 首 先是 简单 的 C 语言 版 本 ， 然 后 使 用 SIMD 内 
置 函数 。 简 单 的 体内 核 如 图 10-1 所 示 。 代 码 定义 了 8 个 数组 用 于 描述 主体 的 特征 ， 数 组 
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x*、y、z 是 坐标 , m 是 质量 / 电荷， p 是 电势 ，ax、ay、az 是 在 每 个 方向 的 加 速度 。 这 里 计 
算 的 方程 是 平滑 拉 普 拉 斯 电势 
#pragma simd 


#pragma omp for 
for (i=0; i<N; i++) { 


for (j=0; j«N; j++) 
fiat dx = x[jl - 
float dy = y[j] - 
float dz = z[j] = zi; 
float R2 = dx * dx + dy * dy + dz * dz + EPS2; 
float invR = 1.0f / sqrtf (R2); 
float invR3 - m[j] * invR * invR * invR; 
pi += m[j] * invR; 
axi += dx * invR3; 
ayi += dy * invR3; 
azi += dz * invR3; 
pli] = pi; 
ax[i] = axi; 
ay[i] = ayi; 
az[i] = azi; 





图 10-1. 代码 清单 一 一 直接 入 体内 核 。 目标 (外 层 循 环 ) 被 向 量化 


及 加 速度 





其 中 ， 





是 主体 i 和 j 之 间 的 距离 ，s 是 平滑 因子 。 

数组 Xx、y、z、m 是 指定 的 值 一 一 在 当前 例子 中 ,是 0 和 1 之 间 的 随机 数 。 这 些 值 用 来 
计算 作用 在 所 有 NN 个 主体 上 由 所 及 个 主体 感 生 的 电压 和 加 速度 。 这 一 过 程 产生 了 一 个 从 0 
到 N-1 的 双 循 环 ， 如 图 10-1 所 示 。 变 量 i 的 循环 遍历 目标 主体 , 7 的 循环 遍历 源 主体 。 

本 市 使 用 图 10-1 的 代码 作为 基准 来 看 代码 不 改变 时 协 处 理 器 能 取得 的 性 能 。 同 时 借助 
SIMD 和 OpenMP 两 个 编译 指示 语 可 以 使 用 线程 和 SIMD 癌 量 来 并 行 化 外 层 循环 。 下 一 证 将 
展示 使 用 不 同 编译 选项 的 性 能 结果 。 处 理 器 和 协 处 理 器 使 用 相同 的 代码 。 

协 处 理 器 有 类 似 SSE 和 AVX 的 512 位 宽 SIMD 内 置 函 数 。 因 为 这 些 内 置 函数 指令 直接 
对 应 到 编译 指令 ， 编 译 器 如 何 处 理 代 码 将 比较 明确 。 更 具体 地 说 ， 它 将 通知 编译 器 明确 地 执 
ÍT load, store, fmadd 和 rsgqrt 指令 ， 且 答 癌 量化 的 循环 也 会 明确 指定 。 

直接 和 N 体 内 核 的 外 层 循环 遍历 目标 主体 ， 内 层 遍 历 源 主体 。 使 用 SIMD 内 置 函 数 可 以 
指明 向 量化 外 层 循环 ,方法 是 将 16 个 数组 元 素 放 入 SIMD 寄存 器 ， 循 环 的 跨度 是 16， 如 图 


140 5 10% 


10-2 所 示 。 和 直接 NN 体 代码 的 大 体 结构 没有 改变 , 但 所 有 的 操作 都 写成 _mm512 AYA E RAR, 
所 有 的 中 间 值 都 声明 为 _m512 寄存 融 。 如 有 需要 ，fmadd 指令 将 清晰 指明 。 


#pragma omp for 
Ior (1z0; 


icN; 
pi 
axi 


i«-16) { 
 mm512 setzero ps(); 
 mm512 setzero ps(); 


. | m512 
m512 


. | m512 
.  m512 
_  m512 
__m512 yi 
__m512 zi 
for (j=0; j«N; 
. m512 xj 
| mm512 
| m512 yj 
yj _mm512 
| m512 2 
zj _mm512 


ayi 
azi 
xi 


xj 


 mm512 setzero ps(); 
 mm512 setzero ps(); 


 mm512 load ps (x+i); 
_mm512 load ps(y+i) ; 
_mm512 load ps(z+i); 


7 J++) 

mm512 setl ps(x[jl); 
Sub ps(xj, xi); 

| mm512 setl ps(y[j] ) i 
Sub ps(yj, yi); 

_mm512 setl ps(z[jl); 
Sub ps(zj, zi); 


|. m512 R2 mm512 setl ps(EPS2); 
 mm512 fmadd ps(xj, xj, R2); 
_mm512_ fmadd ps (yj, yj: R2) ; 
 mm512 fmadd ps(zj, zj, R2); 
|| m512 mj  mm512 setl ps(m[jl); 
| m512 invR = mm512  rSqrt23 ps(R2); 
mj mm512 mul ps(mj, invR); 
mm512 add _ps(pi, mj); 
 mm512 mul ps(invR, invR); 
_mm512 mul ps(invR, mj); 
 mm512 fmadd ps(xj, invR, 
| mm512 _fmadd_ps(yj, invR, 
 mm512 fmadd ps(zj, invR, 


_mm512 store ps(p«i, pi); 

 mm512 store ps(ax+i, axi); 
 mm512 store ps(ay+i, ayi); 
 mm512 store ps(az+i, azi); 





图 10-2 ”代码 清单 一 一 使 用 内 置 函 数 的 直接 IN 体内 核 。 目 标 (外 层 循 环 ) 被 回 量 化 


向 量化 内 层 循 环 的 一 个 替换 形式 如 图 10-3 所 示 。 代 码 与 图 10-2 中 基本 相同 ， 不 同 之 处 
是 跨度 16 现在 在 7 循环 中 ， 且 结尾 处 必须 执行 reduce-add 操作 ， 而 不 是 简单 的 store 操作 。 


#pragma omp for 

for (i=0; i<N; 
| m512 pi 
_ M512 axi 


i++) { 
_mm512_setzero_ps(); 


_mm512_setzero_ps(); 


__m512 
__m512 
__m512 


 mm512 setzero ps(); 
 mm512 setzero ps(); 
 mm512 setl ps (x[i]); 
| m512  mm512 setl ps(ylil) 
_ m512 | mm512 setl ps(z[i]); 

for (j=0; j«N; j+=16) 
. m512 xj 
xj 
|| m512 yj 


Li 
天 
+ 
i 
t 


_mm512 load ps (x+j); 
_mm512 sub ps(xj, xi); 

mm512 load ps(ysj); 
 mm512 sub ps(yj, yi); 


yj 


__m512 zj mm512 load ps (z+j); 

 mm512 sub ps(zj, zi); 

_ m512 R2 mm512 _set1_ps(EPS2) ; 
_mm512 fmadd ps (xj, xj, R2); 
 mm512 fmadd ps (yj, yi. R2) ; 
 mm512 fmadd ps(zj, zj, R2); 

12 mj  mm512 load ps (m+] ; 


5 uH Hn il 





图 10-3 ”代码 清单 一 一 使 用 内 置 函 数 的 直接 IN 体内 核 。 源 〈 内 层 循 环 ) 被 问 量化 
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_ m512 invR = mm512 rsqrt23 ps(R2); 
mj = mm512 mul psí(mj, invR); 

pi- mm512 add ps(pi, mj); 

invR = mm512 mul ps(invR, invR); 
invR = mm512 mul ps(invR, mj); 


axi - mm512 fmadd ps(xj, invR, axi); 


ayi = mm512 fmadd ps(yj, invR, ayi); 


azi = mm512 fmadd ps(zj, invR, azi); 


} 

pli] = mm512 reduce add ps (pi); 
ax[i] = mm512 reduce add ps(axi); 
ay[i] = mm512 reduce add ps (ayi); 
az[i] = mm512 reduce add ps (azi); 
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AVX 内 置 函 数 的 代码 与 图 10-2 和 图 10-3 所 示 的 代码 非常 相似 ,不同 是 “ fmadd” 要 变 
成 分 开 的 “mul” 和 “add” 操 作 ， 图 10-3 中 的 “reduce:add ”操作 要 变 为 “permute2f128” 
“add” 和 “hadd” 的 组 合 操作 。 


10.4 ”性 能 结果 


本 节 将 汇报 图 10-1 和 图 10-2 所 示 的 直接 和 NN 体内 核 在 Intel Xeon E5 v2 Xb P Zé All Intel 
Xeon Phi pbs ae E 的 性 能 。 测试 使 用 Intel 1400 
MPSS 3.2.1 和 本 地 模式 的 Intel C++ Composer 





XE14.0.1 版 本 在 Intel Xeon Phi 7120P 协 处 理 oe 

ax, LA X fi H Intel C++ Composer XE13.0.1 - 

版 本 的 两 个 Intel Xeon E5-2680 v2 (Ivy Bridge) son 

上 执行 。 执 行 时 N= 65 536， 每 对 主体 的 性 ao 

能 为 20FLOPS。 处 理 器 上 使 用 的 编 详 选 项 o 

是 “-mavx -openmp -03”， 协 处 理 需 使 用 的 

是 “-mmic -openmp -fmf-domain-exclusion icc-mmic -openmp —— -fimf -03 _mm512 

-15-03", 图 10-4 显示 了 使 用 指令 和 内 置 ”图 10-4 使 用 指令 和 内 置 函 数 的 直接 入 体内 核 在 

函数 时 处 理 器 和 协 处 理 器 的 比较 结果 。 Ivy Bridge Xb #2 2& ( avx/mm256 ) 和 Intel 
本 实验 在 双 插 槽 处 理 器 上 使 用 40 个 Xeon Phi Ub 3 2& ( mic/mm512) 上 的 单 

线程 ， 在 协 处 理 器 上 使 用 244 个 线程 。 TRIK GELAP 


协 处 理 器 上 线程 的 可 扩展 性 非常 好 ， 图 10-5 将 展示 更 多 细节 。 图 例 "-mavxtpragma " 
“mm256”“-mmictpragma”” mm512” 分 别 表示 主 处 理 需 使 用 指令 、 主 处 理 需 使 用 内 置 函 
数 、 协 处 理 器 使 用 指令 和 协 处 理 需 使 用 内 置 图 数 。 在 处 理 器 上 ， 基 于 内 置 机 数 的 版 本 比 基 于 
各 令 的 版 本 性 能 要 好 ， 但 在 协 处 理 器 上 ， 基 于 指令 的 版 本 运行 更 快 。 这 两 种 基于 指令 和 基于 
内 置 函 数 的 版 本 都 比 之 前 的 直接 入 体 版 本 运行 在 协 处 理 带 上 的 性 能 好 。 

图 10-5 显示 当 使 用 不 同 线程 数量 时 直接 和 体内 核 的 强 可 扩展 性 。Intel Xeon Phi 7120P 
协 处 理 器 有 61 个 内 核 ， 每 个 内 核 4 个 线程 ， 所 以 线程 总 数 达 到 244。 本 实验 通过 将 “KMP_ 
AFFINITY” Æ X compact, balanced 和 scatter 来 测试 线程 关联 的 效果 。scatter 和 balanced 
选项 显示 了 直到 61 个 内 核 都 具有 理想 的 可 扩展 性 ， 每 个 内 核 上 运行 1 个 线程 。compact 选 
项 当 一 个 内 核 上 4 个 线程 都 运行 时 得 到 理想 的 可 扩展 性 。 这 说 明 处 理 器 内 核 的 可 扩展 性 非 
常 好 ， 但 一 个 内 核 内 4 个 线程 的 可 扩展 性 并 不 好 。 最 终 ， 当 244 个 线程 都 使 用 时 ， 不 同 
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"KMP AFFINITY ”选项 不 会 导致 任何 区 别 。 

到 现在 为 止 ， 图 10-4 和 图 10-5 所 示 实 验 针 对 的 问题 大 小 是 确定 的 N= 65 536. 
图 10-6 显示 耳 接 和 体内 核 在 不 同 问题 大 小 时 的 单 精度 GFLOPS。 在 图 例 中 ,“ Jintrinsicss”“J 
intrinsics”“ 了 pragma”“J pragma” 分 别 表示 使 用 内 置 函数 向 量化 目标 循环 、 使 用 内 置 函 数 
器 量 化 源 循 环 、 使 用 指令 向 量化 目标 循环 和 使 用 指令 向 量化 源 循环 。 误 差 条 显示 了 对 于 每 种 
情况 256 次 运行 产生 的 标准 偏差 ,单位 是 GFLOPS。 这 里 显示 误差 条 是 由 于 一 些 情况 下 运 
行 时 的 偏差 非常 大 。 从 图 中 首先 注意 到 源 向 量化 版 本 在 入 = 2" = 16 384 时 达到 峰值 。 使 用 
SIMD 内 置 函 数 和 指令 加 ragma simd 能 明确 指示 编译 器 回 量 化 外 层 循环 ， 使 得 当 N>16 384 
时 产生 更 高 的 性 能 。 对 源 向 量化 使 用 SIMD 内 置 哺 数 运行 更 快 ， 而 对 目标 向 量化 ,使 用 基于 
指令 的 版 本 运行 更 快 。 向 量化 内 层 还 是 外 层 循环 的 最 优选 择 取决 于 问题 大 小 。 


403 UL Compact 1500 
~~ Balanced j 
—e- Scatter d 
—— ldeal 





m up 1000 
A Q 
O O 
i 10? TE 
© © 
500 
-- | pragma 
~ = J pragma 
10' ¥ 0 
10° 10' 10? 10 12 14 16 18 
线程 log)N 
图 10-5 不 使 用 内 置 函数 的 直接 N 体内 核 在 Intel 图 10-6 对 不 同 问题 大 小 的 直接 X 体 内核 使 用 或 
Xeon Phi 协 处 理 亏 在 不 同 内 核 数 时 的 单 不 使 用 内 置 函 数 ， 对 i 的 外 层 循 环 或 j 
精度 GFLOPS 的 内 层 循 环 进行 向 量化 ， 在 Intel Xeon 


Phi 协 处 理 需 的 单 精度 GFLOPS 


10.5 BS 


AS ae FIR TON ey FE Pp Wb BB AE OC th Ee NRA. DOB E fs] tf HL A PE de EIE " icc 
-mmic -openmp -fimf-domain-exclusion-15" Æ [nj CPU 的 原始 C 代码 添加 “ #pragma simd” 
可 达到 I.5TFLOPS 单 精 度 浮 点 性 能 。 使 用 OpenMP 和 simd 指令 有 益 于 处 理 器 ， 程 序 执行 过 
程 接近 完美 的 强 可 扩展 性 ， 而 内 核 内 部 线程 的 可 扩展 效率 较 低 。 当 使 用 全 部 244 个 线程 时 ， 
使 用 “KMP AFFINITY” 没 有 任何 影响 。 

通过 使 用 _mm512 内 置 函 数 ， 即 使 对 较 小 的 问题 规模 也 能 够 取得 1.4TFLOPS 的 性 能 。 
性 能 对 问题 大 小 有 很 强 的 依赖 性 ， 且 这 种 关系 不 是 单调 的 。 直 到 一 定 的 问题 规模 ， 回 量化 内 
层 循 环 的 性 能 更 好 ， 但 当 N>16 384 时 ,向 量化 外 层 循环 的 性 能 更 好 。 通 过 使 用 可 移植 且 通 
用 的 #pragma simd 指令 或 者 更 详细 的 _mm512 A ERZO We ee Nea 


10.6 更 多 信息 
下 面 是 本 章 推荐 的 一 些 额外 阅读 材料 : 
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Mini N-body kernels, https://github.com/harrism/mini-nbody. 

Test-driving Intel Xeon Phi Coprocessors with Basic N-body Simulation. 
http://research.colfaxinternational.com/post/2013/01/07/Nbody-Xeon-Phi.aspx. 

本 章 及 其 他 章 源 代 码 下 载 地 址 http://lotsofcores.com. 
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使 用 OpenMP 4.0 实现 动态 负载 均衡 
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多 年 来 ， 在 高 性 能 计算 社区 ，OpenMP 是 在 共享 内 存 多 处 理 吉 上 进行 编程 的 可 选 模型 。 虽 
然 OpenMP 号 称 多 于 编程 上 且 文 持 增 量 并 行 ， 但 是 没有 经 过 优化 的 OpenMP 程序 的 性 能 往往 不 
高 。 事 实 上 ， 同 其 他 编程 模型 (如 MPI) 一 样 ， 使 用 OpenMP 编程 也 需要 关注 算法 和 硬件 细节 。 

最 新 发 布 的 OpenMP 4.0 标准 更 需要 这 样 。OpenMP 4.0 支持 “ 印 载 ”模式 ， 能 够 充分 
发 挥 各 种 新 兴 众 核 处 理 器 〈 如 Intel Xeon Phi BÁAL28) 的 优势 。 一 般 情况 下 ， 在 给 定 的 处 
PEAS (如 Intel Xeon 多 核 处 理 器 ) 上 进行 OpenMP 编程 会 相对 简单 。 然 而 ， 要 充分 利用 异 构 
系统 上 所 有 的 可 用 计算 资源 (如 “Stampede” 或 者 “天 河 2 号 ”超级 计算 机 的 每 个 节点 既 使 
用 了 Intel Xeon 处 理 需 也 使 用 了 Intel Xeon Phi 协 处 理 器 ) 要 困难 得 多 。 例 如 ， 确 定 主机 端 
和 设备 端 并 行 数 据 传 输 的 最 佳 方法 就 会 提出 很 多 挑战 。 在 此 之 上 ， 为 保证 每 个 设备 和 主机 端 
的 负载 均衡 (哪些 任务 需要 御 载 到 设备 端 处 理 ， 哪 些 任 务 依 然 由 主机 端 处 理 )，OpenMP 编程 
又 增加 了 一 个 额外 的 复杂 度 。 本 章 将 通过 一 个 简单 的 N 体 算法 ， 指 导读 者 完成 从 串 行程 序 
到 深度 并 行程 序 的 开发 。 该 并 行程 序 能 够 充分 利用 异 构 计算 系统 中 的 所 有 可 用 处 理 单元 ， 并 
且 能 够 目 动 为 每 个 设备 动态 分 配 最 佳 工作 负载 ， 从 而 实现 最 高 加 速 比 。 本 章 描述 的 动态 负载 
均衡 方法 完全 使 用 OpenMP 4.0 标准 编写 ， 这 使 得 这 个 方法 不 仅 具 有 完美 的 可 移植 性 ， 而 且 
足够 通用 ， 从 而 使 得 该 方法 能 够 简单 地 应 用 到 其 他 广泛 的 计算 问题 (如 天 体 物 理学 和 分 子 动 
AS) 中 。 无 论 对 于 代码 开发 者 ， 还 是 在 不 混 消 来 源 或 者 牺牲 性 能 前 提 下 急于 发 布 代码 二 进 
制版 本 的 软件 厂商 来 说 ， 这 都 是 非常 有 趣 的 。 


11.1 最 大 化 硬件 利用 率 


本 章 剩 余 的 几 节 将 使 用 众 核 加 速 器 领域 的 传统 术语 。 在 本 章 中 ，CPU、 处 理 器 或 者 主 
机 系统 一 般 指 的 是 Intel Xeon 处 理 器 (CPU)。 协 处 理 器 、 设 备 或 者 加 速 器 一 般 指 的 是 Intel 
Xeon Phi 协 处 理 器 。 结 合 上 下 文 ， 我 们 也 使 用 “计算 设备 ”表示 协 处 理 器 和 CPU. 

Intel Xeon Phi 协 处 理 需 能 够 使 用 三 种 主要 的 编程 范式 进行 编程 :“ 本 机 ”模式 、 "对 
称 ” 模 式 以 及 “ 务 载 ”模式 。 本 机 模式 是 通过 最 小 的 代码 改动 实现 已 有 软件 在 Intel Xeon 
Phi 协 处 理 带 上 运行 的 最 快 方式 。 与 通用 图 像 处 理 器 (GPGPU) 不 同 ，Intel Xeon Phi 协 处 理 
硕 能 够 执行 本 机 应 用 程序 ， 该 程序 不 需要 运行 在 CPU 上 的 主机 进程 ， 直 接 运 行 在 协 处 理 需 
的 操作 系统 上 。 在 这 种 模式 下 ， 每 个 协 处 理 需 都 可 以 看 作 一 个 独立 的 众 核 多 路 对 称 计算 设 
备 。 当 然 ， 以 本 机 模式 在 协 处 理 器 上 运行 一 份 代码 ， 需 要 对 这 份 代码 进行 移植 。 然 而 ， 得 
ít Intel 处 理 右 和 协 处 理 器 以 及 对 应 软件 栈 的 相似 性 ， 代 码 移 植 相对 简单 。 相 对 于 标准 多 
核 处 理 需 ， 要 充分 利用 协 处 理 器 上 更 多 的 内 核 (或 者 更 宽 的 向 量 单元 )， 可 能 需要 更 多 的 工 
作 。 但 两 者 可 以 使 用 相同 的 编程 模型 。 这 就 是 当 用 户 使 用 Intel Xeon Phi 架构 时 ， 会 首先 使 
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用 本 机 模式 作为 移植 工作 的 第 一 步 的 原因 。 然 而 ， 在 协 处 理 器 上 使 用 本 机 模式 有 两 点 劣势 : 
1 ) 只 能 利用 一 个 Intel Xeon Phi 协 处 理 器 ; 2) 浪费 CPU 上 的 可 用 计算 资源 。 

将 已 经 能 够 并 行 运行 在 分 布 式 内 存 系统 上 的 代码 移植 到 协 处理 器 上 ， 对 称 模式 是 非常 合 
适 的 选择 。 之 所 以 称 为 对 称 模式 ， 是 因为 该 模式 允许 代码 同时 利用 给 定 集群 上 的 处 理 箱 和 协 
处 理 器 的 所 有 可 用 计算 资源 。 在 这 种 情况 下 ， 所 有 的 计算 设备 能 够 并 行 访问 。 虽 然 在 对 称 模 
式 下 将 代码 移植 到 基于 协 处 理 器 的 集群 上 所 需要 的 工作 和 使 用 本 机 模式 一 样 简 单 ， 但 是 在 异 
构 计算 系统 上 实现 负载 均衡 是 非常 具有 挑战 性 的 。 

当 使 用 全 载 模式 时 ， 应 用 程序 在 主机 系统 (即使 用 CPU) 上 加 载 启 动 ， 数 据 的 初始 化 
也 在 主机 端 进行 。 随 后 ， 应 用 程序 使 用 PCIe 总 线 将 特定 的 可 执行 代码 及 所 需要 的 数据 推送 
(Ha) 到 设备 端 执行 。 设 备 端 执行 完毕 后 ， 将 计算 结果 返回 主机 端 。 对 于 Intel Xeon Phi Hh 
处 理 器 ， 程 序 员 能 够 以 编译 制导 的 方式 实现 件 载 初始 化 。 印 载 模式 不 但 可 以 用 在 独立 的 机 顶 
上 ， 而 且 可 用 在 集群 上 。 当 在 集群 上 使 用 钾 载 模式 时 ， 集 群 的 每 一 台 机 顺 将 会 开局 一 个 或 者 
多 个 MPI 进程 ， 然 后 每 个 进程 各 目 执 行 印 载 操 作 。 

在 三 种 编程 模式 中 ， 尽 管 印 载 模式 常常 是 最 耗费 精力 的 ， 但 其 潜在 回报 也 是 最 高 的 。 尤 

e 人 允许 一 份 代码 同时 使 用 主机 端 和 设备 端的 计算 资源 。 

e 避免 了 在 大 规模 代码 中 特别 具有 挑战 性 的 MPI 层次 上 负载 均衡 的 复杂 性 。 

e 编写 的 代码 适用 于 任何 可 预见 的 Intel Xeon 和 Intel Xeon Phi 产品 。 

然而 ， 以 有 效 的 方式 充分 开发 和 利用 缉 载 模式 的 优点 是 非常 具有 挑战 性 的 。 例 如 ， 凶 载 
模式 需要 同时 利用 主机 和 设备 的 所 有 计算 单 
元 ， 这 样 才能 利用 两 者 潜在 的 “组 合 ” 计 算 
能 力 ， 而 不 是 在 两 个 计算 设备 间 切 换 ， 但 要 
实现 这 个 功能 不 容易 ( 见 图 11-1 )。 除 此 之 
外 ， 实 现 计 算 设 备 间 的 最 佳 负载 均衡 ， 从 而 
使 所 有 计算 设备 同时 到 达 同 步 点 ， 消 除 等 待 
某 一 计算 设备 到 达 造 成 的 时 间 开 销 ， 也 是 非 
名 具有 挑战 性 的 。 

本 章 摘 述 了 如 何在 Intel Xeon Ab IE $i 
和 任意 多 个 Intel Xeon Phi 协 处 理 需 间 实 现 
最 佳 负 载 均衡 。 同 时 ， 本 章 使 用 最 新 发 布 
的 OpenMP 4.0 标准 ， 以 充分 利用 两 痢 可 使 同 的 两 个 协同 工作 者 ， 工 作 负 载 的 分 配 上 明 
用 统一 编程 模型 的 优点 。 该 新 标准 允许 我 们 显 困难 
仅仅 使 用 几 条 编译 制导 指令 ， 就 可 以 通过 一 
种 可 移植 及 优雅 的 方式 ,使 用 完全 相同 的 代码 库 来 充分 利用 异 构 计算 平台 的 所 有 潜在 计算 能 
力 。 实 现 这 一 目标 需要 的 唯一 一 个 OpenMP 4.0 新 特性 就 是 新 的 SIMD 指令 。 全 部 代码 的 性 
ELA RATES , 我们 都 将 在 Intel Xeon Phi HARIEN Intel Xeon 处 理 各 上 应 用 和 分 析 。 

本 章 将 使 用 在 天 文物 理学 应 用 程序 中 常用 的 一 个 经 典 N 体 算法 来 充分 说 明 异 构 系 统 程 
序 的 整体 开发 方法 。 类 似 的 算法 也 用 在 分 子 动力 学 应 用 程序 中 ， 在 这 个 应 用 中 重力 被 替换 为 
库仑 力 。 事 实 上 ， 需 要 强调 的 是 ， 本 章 描 述 的 负载 均衡 算法 和 具体 的 计算 内 核 是 相互 独立 
的 。 因 此 ， 这 个 方法 也 可 应 用 到 其 他 迭代 算法 中 。 





图 11-1 如 果 将 相同 的 工作 负载 分 配给 工作 能 力 不 
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11.2 NV 体内 核 


为 帮助 说 明 该 方法 ， 我们 假设 要 模拟 太空 中 非 相 对 论 粒 子 的 自由 演化 ， 如 卫星 、 行 星 、 
恒星 、 星 云 等 。 根 据 牛 顿 第 二 定律 ， 每 个 粒子 所 受到 的 总 作用 力 等 于 其 质量 和 加 速度 的 乘 
积 。 同 时 ， 根 据 牛 顿 万 有 引力 定律 ， 任 意 两 个 粒子 间 的 相互 吸引 力 与 它们 质量 的 乘积 成 正 
比 ， 与 它们 距离 的 平方 成 反比 。 对 于 个 粒子 的 集合 ， Ra 


Viell- “Nlm.a i= 





(1141) 
SL ‘lalate, EVE CONDE. SEM MEN 
的 距离 uy 为 粒子 i 和 粒子 j 间 的 单一 向 量 。 式 ( 11-1) 可 重 写 为 : 


Vie[l--,N NE e Gy T m ( 11-2) 


is j 





其 中 ,vi 为 粒子 速度 ,为 粒子 位 置 ，1 为 时 间 。 

根据 式 ( 11-2 )， 可 以 非常 容易 写 出 和 N 体 万 有 引力 内 核 函 数 ， 如 图 11-2 所 示 。 此 外 ， 我 
们 也 想 评估 浮 点 精度 对 性 能 的 影响 ， 因 此 引入 一 个 通用 “ 实 ” 类 型 ， 该 类 型 根据 宏 定义 取 值 
double 或 float。 


#ifdef DOUBLE 
typedef double real; 
#define Sqrt sqrt 
#else 
typedef float real; 
#define Sqrt sqrtf 
#endif 


real *x, *y, *z, *vx, *vy, *vz, *m; 
const real G = 6.67384e-11; 


void Newton( size t n, real dt ) { 
const real dtG = dt * G; 
for ( size t i= 0; i < n; ++i) { 
real dvx = 0, dvy = 0, dvz = 0; 
for ( size t j = 0; j < n; ++j ) { 
if (d tea) f 
real dx = x[j] - x[i], dy = ylj] - yli], 
dz = z[j] = zl[il; 


real dist2 = dx*dx + dy*dy + dz*dz; 
real mjOverDist3 = m[j] / 


(dist2 * Sqrt( dist2 )); 


dvx += mjOverDist3 * dx; 
dvy += mjOverDist3 * dy; 
dvz += mjOverDist3 * dz; 
} 

} 

vx[i] += dvx * dtG; 

vy[i] += dvy * dtG; 

vz[i] += dvz * dtG; 


for ( size € i = 0; i < n; ++i) { 
x[i] += vx[i] * dt; 
y[i] += vyli] * dt; 
z[i] += vz[i] * dt; 





11-2. 初始 六 体 万 有 引力 内 核 函 数 
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由 于 次 优 的 初始 内 核 函数 ， 为 保证 性 能 比较 没有 任何 偏见 ， 我 们 使 用 OpenMP 指令 并 
行 优化 Newton PRA: 

1. 使 用 OpenMP 的 “parallel” 结 构 包 含 整个 函数 体 。 

2. 在 两 个 遍历 i 的 for 循环 上 分 别 增加 OpenMP “ for ”指令 ,将 循环 迭代 分 配 到 多 
个 OpenMP 线程 中 。 

3. 在 for 结构 上 增加 “schedule (atuo) 指令 ,将 任务 调度 委派 给 编译 器 ， 所 以 这 
不 是 我 们 关注 的 重点 。 

4. 在 两 个 遍历 j 的 for 循环 上 分 别 增加 OpenMP "sima" $8, 使 编译 融 在 “jj ”上 
完成 自动 向 量化 工作 。 

5. 为 消除 变量 i 和 j 进行 比较 操作 的 开销 ， 这 个 语句 可 能 会 阻碍 循环 的 向 量化 ， 将 这 
个 循环 拆 分 成 两 个 ， 一 个 从 0 到 工 ， 另 一 个 从 1i+1 Bn, 

通过 这 些 修 改 ， 最 新 的 内 核 函 数 如 图 11-3 所 示 。 


void Newton( size t n, real dt ) ( 
const real dtG - dt * G; 
— omp parallel 


#pragma omp for schedule( auto ) 
for ( size t i = 07 i < n; «i ) { 
real dvx = 0, dvy = O, dvz = 0; 
#pragma omp simd 
for ( size t j = 0; j «i; ++j ) { 
real dx = x[j] = xlil, dy s ylj] = ylil, 
ag = jl -Alig 
real dist2 = dx*dx + dy*dy + dz*dz; 
real mjOverDist3 = m[j] / 
(dist2 * Sqrt( dist2 )); 
dvx += mjOverDist3 * dx; 
dvy += mjOverDist3 * dy; 
) dvz += mjOverDist3 * dz; 
#pragma omp simd 
for ( size t j = i+1; j <n; 4) ) { 
real dx = XII - xl; dy = yO] = vli], 
dz = z[j] = zf[il; 
real dist2 = dx*dx + dy*dy + dz*dz; 
real mjOverDist3 = m[j] / 

(dist2 * Sqrt( dist2 )); 
mjOverDist3 * dx; 
mjOverDist3 * dy; 
mjOverDist3 * dz; 


- dvx * dtG; 
dvy * dtG; 
- dvz * dtG; 


} 
omp for simd schedule( auto ) 
For ( size t i = 0; i < n; ++i ) 
x[i] += vx[i] * dt; 
yli] += vyli] * dt; 
z[i] += vz[i] * dt; 





图 11-3 ”优化 后 的 入 体 万 有 引力 内 核 函数 


如 图 11-4 所 示 ， 我 们 分 别 在 Intel Xeon 处 理 器 和 Intel Xeon Phi 协 处 理 器 (使 用 本 机 模 
X) 上 对 入 体内 核 进行 测试 。 为 了 实现 这 一 点 ,我们 额外 写 了 一 个 程序 该 程序 用 于 分 配 存 
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储 粒 子 位置 和 速度 的 数组 ， 并 使 用 随机 初始 条 件 对 这 两 个 数组 进行 了 初始 化 。 随 后 调用 


Newton BK NUK (WN 为 给 定 的 迭代 次 数 )。 
对 于 此 处 讨论 的 模拟 过 程 ， 我 们 设 定 n= 
50 000 个 粒子， 时 间 步 at = 0.01， 并 允许 
系统 给 定 1s 的“ 模拟” 时间， 在 这 里 代表 
100 次 迭代 。 我 们 使 用 Intel 编译 器 分 别 在 处 
理 器 和 协 处 理 器 上 编译 了 这 个 程序 (注意 ， 
此 时 在 协 处 理 顺 上 采用 本 机 模式 进行 编译 )， 
随后 将 编译 好 的 程序 运行 在 开发 平台 上 。 ~ 
图 11-5 展示 了 程序 在 Intel Xeon Ab FE 25 All 
Intel Xeon Phi 协 处 理 需 两 个 计算 平台 上 的 性 
能 及 良好 的 可 扩展 性 。 这 里 值得 注意 的 是 ， 
该 程序 不 仅 充分 利用 了 协 处 理 器 上 硬件 线程 
的 性 能 (这 是 可 以 预料 的 )， 还 充分 利用 了 处 
理 需 硬件 线程 的 性 能 。 其 中 ,在 处 理 器 平台 
上 ， 我 们 通过 使 用 超 线程 技术 获得 了 2196 
的 性 能 提升 。 最 终 ， 我 们 在 Intel 运行 时 库 





图 11-4 不 平等 的 工作 分 配 是 低 效 的 。 我 们 当然 可 
以 非常 容易 地 将 所 有 工作 安排 给 处 理 器 或 
者 协 处 理 器 ， 此 时 会 有 其 中 一 个 计算 设备 
( 协 处 理 器 或 者 处 理 器 ) 处 于 空闲 状态 。 
这 些 浪费 计算 资源 的 情况 就 是 本 章 描述 的 
负载 均衡 的 动机 


默认 的 线程 数目 上 获得 了 最 短 运行 时 间 ， 也 就 是 说 ， 我 们 并 没有 设置 OMP_NUM THREADS 
去 获取 最 佳 性 能 。 这 些 条 件 将 在 本 章 的 剩余 部 分 继续 使 用 。 





90 120 150 180 210 240 
线程 数 


图 11-5 NN 体 内 核 在 两 个 处 理 器 ( 左 ) 和 一 个 协 处 理 器 〈 右 ) 上 的 良好 可 扩展 性 


图 11-6 展示 了 N 体 内 核 在 主机 端 和 设 
备 端 的 绝对 性 能 ( 单 精度 和 双 精 度 )。 从 中 可 
以 看 出 ， 相 对 于 在 两 个 10 核 Ivy Bridge Intel 
Xeon 处 理 天 上 的 性 能 ， 我 们 在 Intel Xeon 
Phi 协 处 理 硕 上 分 别 实现 了 单 精 度 2.17 倍 和 
双 精 度 3.19 倍 的 性 能 提升 。 如 果 我 们 认为 
平方 根 是 一 个 正常 的 浮 点 运算 ， 那 么 在 Intel 
Xeon 处 理 器 上 达到 了 125 GFLOPS 的 性 能 
( 单 精度 )， 在 Intel Xeon Phi 协 处 理 器 上 大 





图 11-6 N 体 内 核 在 两 个 (主机 ) 处 理 器 和 一 个 
(设备 ) 协 处 理 右 上 的 完成 时 间 CEP). iE 
意 ， 时 间 轴 越 短 代表 性 能 越 好 


O 计算 节点 由 两 个 10 KAS Intel Xeon E5-2660 v2 处 理 器 和 两 个 60 核 的 Intel Xeon Phi 5110P 协 处 理 器 构成 。 
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到 了 540GFLOPS 的 性 能 ( 单 精度 )。 这 意味 着 经 过 简单 优化 的 体内 核 就 利用 了 处 理 右 峰 
值 性 能 的 36% ， 协 处 理 器 峰值 性 能 的 27%。 考 虑 到 我 们 在 优化 内 核 中 的 投入 ， 这 是 一 个 非 
常 可 观 的 成 绩 。 

从 这 个 坚实 的 基础 出 发 ， 现 在 我 们 可 以 非常 自信 地 开始 我 们 的 旅程 ， 目 标 是 开发 一 段 完 
全 集成 的 代码 。 


11.3 Spa hk 


我 们 的 目标 是 将 上 一 节 讨 论 的 X 体 代码 转 
化 为 印 载 模式 : EEN CAD FRE) 运行 程序 
并 将 计算 和 数据 推送 给 设备 端 〈 协 处 理 融 )， 如 
图 11-7 所 示 。 为 实现 这 一 点 ， 只 需要 添加 三 条 
额外 的 OpenMP 指令 : 

e 使 用 “#Pragma omp declare tar- 
get ”与 相应 的 “#pragma omp end 
declare target ”指令 包围 所 有 需 图 11-7 现在 主机 端 和 设备 端 相互 了 解 了 对 方 ， 
要 在 协 处 理 器 上 用 到 的 变量 和 函数 定 可 以 共同 承担 工作 负载 了 
义 。 这 将 强制 编译 器 生成 两 个 版 本 的 代 
码 : 一 个 用 于 处 理 器 ， 一 个 用 于 协 处 理 器 。 这 两 个 版 本 的 代码 将 链接 为 一 份 二 进 制 
代码 。 

e Newton mA, 4 “#pragma omp parallel" #§4 BA “#pragma omp 
target ”指令 。 这 将 指示 编译 器 将 计算 印 载 到 计算 平台 上 的 第 一 个 Intel Xeon Phi 
协 处 理事 设备 上 。 

e 最 后 ， 如 图 11-8 所 示 ， 在 调用 Newton 函数 的 主 循环 上 方 添加 “可 zagma omp 
target data ”指令 。 这 条 指令 将 指示 编译 器 在 设备 端 为 数组 序列 分 配 内 存 ， 并 在 
执行 进一步 的 操作 前 ， 将 初始 值 从 主机 端 复 制 到 设备 病 。 最 终 ， 在 主 循环 的 出 口 处 
从 设备 中 获得 位 于 “map (tofrom: )” 列 表 中 的 数组 的 值 。 





#pragma omp target data \ 
map( tofrom: x[0:n], y[0:n]; z[0:n] ) \ 
map( to: vx[0:n], vy[0:n], vz[0:n], m[0:n] ) 


for ( int it = 0; it < 100; ««it ) { 
Newton( n, 0.01 ); 


} 





图 11-8 调用 和 N 体 内 核 时 使 用 的 数据 印 载 OpenMP 指令 


现在 我 们 可 以 运行 YX 体内 核 的 捷 载 版 本 ， 并 同 处 理 器 的 本 机 版 本 和 协 处 理 器 的 本 机 版 
本 进行 性 能 比较 。 图 11-9 展示 了 比较 结果 。 

所 以 ， 我 们 有 了 一 份 可 以 同 往常 一 样 运行 的 代码 (不 需要 登录 Intel Xeon Phi 协 处 理 
右 )。 同 它 的 本 机 版 本 相 比 ， 这 份 代码 只 有 一 点 点 的 性 能 损失 。 现 在 是 时 候 以 “协作 ”的 方 
式 使 用 异 构 系 统 中 的 所 有 可 用 处 理 器 和 协 处 理 器 资源 ， 以 充分 发 挥 系统 的 计算 潜力 。 
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KI 11-9 将 入 体内 核 在 两 个 Intel Xeon E5-2660 v2 Ivy Bridge 处 理 器 上 的 性 能 归 一 化 为 1 后 ， 三 个 
版 本 的 性 能 比较 〈 越 高 越 好 ): 本 机 处 理 器 版 本 、 本 机 协 处 理 器 版本、 外 载 协 处 理 需 版 本 


11.4 第 一 个 处 理 器 与 协 处 理 怖 协作 版 本 

我 们 的 目标 是 找到 一 种 方法 : 

1. 将 部 分 工作 负载 抒 载 到 Intel Xeon Phi 协 处 理 器 上 ， 同 时 余下 的 工作 负载 继续 在 Intel 
Xeon 处 理 需 〈 主 机) 上 进行 处 理 和 计算 。 

2. 确保 设备 端 和 主机 端的 负载 均衡 ， 即 将 适量 
工作 负载 提交 给 设备 端 处 理 ， 保 证 设备 端 和 主机 端 
可 并 行 执行 相同 时 间 。 要 实现 这 点 的 关键 是 确保 一 
个 计算 设备 在 等 待 其 他 计算 设备 完成 各 自任 务 时 ， 
没有 时 间 浪 费 ( 见 图 11-10 )。 

然而 ， 由 于 在 计算 过 程 中 的 每 个 时 间 步 长 ， 系 
统 都 需要 完整 的 关于 粒子 速度 和 位 置 的 最 新 视图 ， 图 11-10 根据 不 同 处 理 絮 的 计算 能 力 对 





所 以 这 种 主机 - 设备 分 配 工作 、 协 同 工 作 的 方式 会 工作 负载 进行 分 配 。 使 处 理 器 和 
导致 额外 的 数据 传输 。 这 种 额外 的 数据 传输 不 但 需 协 处 理 器 完成 任务 的 时 间 尽 可 能 
要 精心 管理 以 确保 代码 的 正确 性 ， 而 且 会 对 性 能 产 相同 ， 以 此 减少 整个 系统 的 空 亲 
生 明显 影响 。 uM 


如 何 解 决 这 些 问 题 呢 ? 第 一 步 ， 创 建 两 个 线程 ， 以 允许 主机 和 设备 并 行 运行 ， 每 个 线程 
管理 其 中 一 部 分 。 这 只 需要 在 循环 前 加 上 “#Pzragma omp parallel num threads(2)" 
指令 就 可 实现 。 然 而 ， 这 会 对 主机 代码 产生 一 定 的 影响 : 
e 要 确保 计算 在 主机 上 还 能 够 并 行 执行 ,我 们 需要 允许 藤 套 的 OpenMP HITE. FZE, 
这 只 需要 在 代码 的 初始 化 阶段 增加 对 “omp_set_nested (true)” 的 调用 即 可 实现 。 

e 需要 主机 的 一 个 专门 OpenMP 线程 管理 设备 ， 这 就 意味 着 减少 了 主机 端 可 用 于 计算 
的 线程 数目 。 虽 然 这 对 拥有 大 量 内 核 的 主机 (如 本 章 使 用 的 计算 平台 ) 的 影响 有 限 ， 
但 确实 是 一 个 不 能 忽略 的 要 素 。 

在 完成 第 一 步 后 ， 需 要 在 主机 和 设备 间 分 发 任务 。 这 个 工作 的 原理 非常 简单 ， 并 且 只 需要 
稍微 修改 Newton 函数 : 增加 两 个 输入 参数 。 这 两 个 输入 参数 定义 了 基于 i 循环 的 迭代 范围 。 
在 Newton 函数 内 部 ， 我 们 使 用 这 两 个 额外 参数 来 限制 基于 i 循环 的 迭代 次 数 。 除 此 之 外 ,我 
们 在 “#Pragma omp target” 中 增加 一 条 额外 的 语句 “ if (n0==0)” 来 选择 性 地 将 计算 
任务 卸载 到 设备 上 。 在 这 里 ，n0 为 增加 的 第 一 个 额外 参数 ， 表 示 循 环 迭 代 的 起 始 值 。 通 过 这 
种 方式 ， 基 于 i 的 循环 只 将 前 一 组 迭代 名 载 到 设备 上 执行 ， 其 他 迭代 依然 在 主机 上 执行 。 

此 时 ， 我们 需要 在 每 个 时 间 步 长 结束 时 保证 主机 和 设备 上 数据 的 同步 。 为 此 ， 我 们 使 用 
“#pragma omp target update ”指令 将 数据 发 送 到 设备 或 者 从 设备 取 回 数据 。 为 保证 
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数据 的 一 致 性 ， 我 们 需要 在 更 新 数据 的 前 后 增加 栅栏 (barrier)。 更 进一步 ， 因 为 这 些 数据 交 
换 必 须 由 一 个 线程 来 执行 ， 所 以 我 们 增加 “ $pragma omp single” 指 令 。 这 条 语句 在 其 
最 后 有 隐 式 栅栏 ， 因 此 可 消除 对 应 的 显 式 调用 。 完 成 这 些 操 作 后 ， 除 了 定义 计算 任务 鲫 载 到 
设备 与 留 在 主机 的 比例 ， 我 们 可 以 运行 代码 。 接 下 来 ， 我 们 将 描述 这 部 分 工作 是 如 何 进行 的 。 
首先 ， 假 设 主 机 和 设备 会 按照 一 定 的 性 能 来 处 理 计 算 任务 。 虽 然 最 初 我 们 并 不 知道 计算 
设备 的 真实 性 能 ， 但 可 以 假定 它 是 固定 的 。 计 算 设 备 的 性 能 可 以 用 每 秒 处 理 的 Newton Ki 
数 内 部 的 外 层 i 循环 的 迭代 次 数 来 表示 。 为 实现 计算 设备 间 的 负载 均衡 ， 我 们 在 每 个 时 间 步 
长 结束 后 ,根据 实 测 性 能 动态 调整 迭代 次 数 ， 以 使 Newton 抑 数 在 主机 和 设备 上 的 完成 时 
间 相 同 。 这 就 得 出 了 下 面 的 公式 : 
, ul 
uis tr +t,(1-r) 


UB. r 表示 上 一 次 迭代 时 分 配 到 设备 上 任务 的 比例 ,，r' RAN FUGA EB. t HE 
示 主 机 完成 任务 的 时 间 ，t 表示 设备 完成 任务 的 时 间 。 

根据 上 面 描述 的 公式 ， 我 们 通过 使 用 上 一 次 迭代 两 个 计算 设备 的 实际 运行 时 间 ， 计 算 每 
个 时 间 步 长 卸载 到 设备 的 最 佳 任务 量 。 我 们 将 分 配 到 两 个 计算 设备 的 任务 比例 初始 化 为 0.5， 
然后 由 系统 自动 进行 调整 。 

图 11-11 为 主 函数 的 代码 ， 图 11-12 为 该 版 本 代码 的 性 能 。 


( 11-3) 


omp set nested( true ); 
double ratio - 0.5; 
double tth[2]; 
#pragma omp target data \ 
map( to: x[0:n], y[0:n], z[0:n], \ 


vx[0:n], vy[0:n], vz[0:n], m[0:n] ) 


#pragma omp parallel num threads( 2 ) 


const int tid - omp get thread num(); 
for ( int it = 0; it < 100; ++it ) { 
size t lim - n * ratio; 
size t 1 =n - lim; 
double tt - omp get wtime(); 
Newton( lim*tid, lim + l*tid, n, 0.01 ); 
tth[tid] - omp get wtime() - tt; 
#pragma omp barrier 
#pragma omp single 
{ 
#pragma omp target update \ 
from( x[0:lim], y[0:lim], z[0:lim], \ 
vx[0:lim], vy[0:lim], vz[0:lim] ) 
#pragma omp target update \ 
tol x{lim:1], y[lim:1], z[l1im:l], ^ 
vx[lim:1], vy[lim:1], vz[lim:1] ) 
ratio - ratio*tth[1] / 
(ratio*tth[1] + (1- ratio)*tth[0]); 





图 11-12. 主机 加 一 个 设备 对 N 体内 核 的 均衡 调用 
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图 11-13 展示 了 每 个 时 间 步 长 设备 端 工作 负载 的 分 配 情况 。 我 们 可 以 看 到 ， 经 过 一 个 短 


时 间 的 “热身 ”之 后 ， 分 配 到 设备 端的 工作 
负载 比例 大 约 为 0.7 ( 单 精度 ) 和 0.76( 双 精 
度 )， 这 和 之 前 测试 的 一 致 。 

这 个 版 本 代码 的 最 后 一 部 分 说 明 ， 数 据 
更 新 由 一 个 线程 顺序 执行 。 当 然 ， 数 据 更 新 
任务 可 以 非常 容易 地 并 行 实现 ， 比 如 : 第 一 
个 线程 负责 x[] 、y[] 和 zf[] 的 数据 更 新 ， 
第 二 个 线程 负责 vx[]、vy[] 和 vz[] 的 
数据 更 新 。 这 将 会 充分 利用 连接 Intel Xeon 
Phi JA BE 28 A E LES PCI 4s. 2 AY XM [n] BE 
Ji. Rm, fEYAD-TB. SHIH EA 
度 相 比 ， 这 种 优化 方法 获得 的 性 能 提升 实在 
微不足道 。 尽 管 如 此 ， 在 代码 的 下 载 包 中 也 
提供 了 这 个 改进 版 本 的 代码 。 


11.5 多 协 处 理 器 版 本 

假设 本 章 采 用 的 计算 平台 至 少 配 备 一 个 
Intel Xeon Phi Ak iko Am, WRZ 
算 平 台 上 有 多 个 可 用 设备 ， 目 前 的 代码 只 能 
利用 其 中 一 人 个。 现在， 我 们 解决 在 代码 中 充 
分 利用 任意 多 个 设备 的 问题 。 与 之 前 一 样 ， 
我 们 将 尽 可 能 透明 并 有 效 地 利用 协 处理 融 
(如 图 11-14 所 示 )。 为 实现 该 目标 ， 我 们 将 
使 用 OpenMP 4.0 的 两 个 额外 特性 。 

e ifs Æ% "omp get num dev- 
ices () ”可 以 获得 当前 计算 系统 中 
可 用 的 设备 数目 。 

e 在 代码 中 的 “#pragma omp target" 
语句 后 面 添加 额外 的 “ device ( dev)" 
语句 ， 定 义 要 使 用 的 设备 案 引 。 

有 了 这 两 个 新 特性 ， 我 们 就 可 以 实现 

代码 的 多 功能 目标 : 可 以 查找 当前 系统 中 可 





= 主机 + 设备 
单 精度 双 精 度 


图 11-12” 相 较 于 在 两 个 Intel Xeon E5-2660 v2 Ivy 
Bridge 处 理 器 上 的 性 能 ， 各 种 版 本 的 入 
体内 核 的 加 速 比 ( 越 高 越 好 ) 





ni 11 21 31 41 51 61 71 81 91 
K| 11-13 SIZE | Intel Xeon Phi 协 处 理 器 上 的 工作 
负载 比例 变化 情况 





图 11-14 可 加 入 更 多 的 “肌肉 ”以 处 理 更 多 的 任 
务 。 一 旦 实现 了 负载 均衡 ， 就 可 以 增加 
更 多 的 处 理 器 和 协 处 理 器 来 共同 完成 计 
算 任 务 


用 的 设备 数量 ， 并 根据 定义 的 条 件 访 问 其 中 的 任意 一 个 。 但 仍然 需要 理解 ， 如 何 改 变 代码 才 
能 分 配 和 传输 数组 到 任意 数量 的 设备 上 。 如 果 我 们 简单 地 把 之 前 代码 版 本 用 于 任意 数目 的 设 


备 ， 主 要 代码 如 图 11-15 所 示 。 


但 从 图 11-15 所 示 的 代码 可 以 看 出 ， 将 并 行 结构 包 含 进 任 意 数量 的 “ target. data” 
指令 中 (一 个 设备 一 个 ) 非常 困难 ， 甚 至 是 不 可 能 的 。 然 而 ， 我 们 只 需要 简单 地 交换 
“target data” 和 “parallel” 两 条 指令 的 顺序 ， 这 个 问题 就 变 得 非常 人 简单。 我 们 没 
有 试图 让 主线 程 管理 所 有 设备 ， 而 是 采用 多 线程 方式 ， 让 每 一 个 线程 至 多 只 管理 一 个 设备 的 
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数据 分 配 和 传输 。 这 样 ， 代 码 就 变 为 如 图 11-16 所 示 。 


const int dev = omp get num devices(); 
#pragma omp target data device( ?? ) \ 
map( to: x[0:n], y[0:n], z[0:n], m[0:n], ^ 


vx[0:n], vy[0:n], vz[0:n] ) 
#pragma omp parallel num threads( dev + 1 ) 
const int tid - omp get thread num(); 


for ( int it = 0; it « 100; ««it ) { 


mes 





图 11-15 一 个 不 可 行 的 多 设备 版 本 


const int dev = omp get num devices(); 
#pragma omp parallel num threads( dev + 1 ) 


int tid = omp get thread num(); 
#pragma omp target data device( tid ) if( tid < dev ) \ 
map( to: x[0:n], ylO:n], z[0:n], m[0:n], \ 
vx[0:n], vy[0:n], vz[0:n] ) 


{ 





for (int it = 0; it < 100; ««it ) { 


图 11-16 一 个 可 行 的 多 设备 版 本 


现在 ， 我们 只 需要 根据 可 用 的 计算 设备 计算 工作 负载 的 均衡 性 ， 并 且 在 每 个 时 间 步 长 之 后 调 
整数 据 更 新 ， 就 可 以 完成 代码 。 计 算 工作 负载 分 配 比例 和 之 前 描述 的 一 样 : 假设 每 个 计算 设备 都 
在 额定 的 速度 下 运行 。 实 现 所 有 计算 设备 在 相同 时 间 内 完成 负载 计算 的 预期 目标 会 产生 如 下 公式 : 

ajed gsr (11-4) 
I, F 


J 
j 


AP, 和 上 分 别 代 表 工 作 负 载 分 配 比例 和 时 间 。 和 j AKERS, rA POE LTEfR 
载 分 配 比例 。 我 们 知道 : 


dev 





27-71 ( 11-5) 
随后 我 们 可 以 推断 : 
Vj e {0,%, dev}r' = — 
j€10,, deyr’, = 
x A ( 11-6) 
Sx. 


因为 我 们 要 计算 的 是 基于 i 循环 的 起 始 索 引 (数组 的 位 移 )， 所 以 可 以 使 用 图 11-17 所 
示 的 computeDisplacements 图 数 实 现 这 个 功能 。 考 虑 到 每 个 时 间 步 长 之 后 的 数据 更 
新 ， 我 们 必须 注意 如 下 两 点 : 

e 因为 会 有 多 个 设备 将 其 计算 数据 和 主机 进行 同步 更 新 ， 所 以 对 于 给 定 的 数组 ， 一 次 

只 允许 一 个 设备 的 数据 更 新 会 带 来 更 好 的 性 能 (尽管 不 是 必需 的 )。 这 就 是 我 们 将 
"update from” 指 令 包 含 进 “ critical” 的 原因 。 除 此 之 外 ， 我 们 还 会 增加 一 
4S "ERST. ， 以 保证 主机 数据 在 重新 发 送 给 设备 之 前 已 经 全 部 更 新 完毕 。 对 于 前 面 的 
代码 版 本 ， 当 然 可 以 充分 利用 需要 更 新 多 个 数组 来 保持 这 个 阶段 的 并 行 性 ， 然 而 ， 
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与 获得 的 性 能 提升 相 比 ， 引 入 的 复杂 性 会 使 结果 适得其反 。 


void computeDisplacements( size t *displ, 
const double *tth, int dev ) { 
double sumLengthOverT - 0; 
size t length[dev-41]; 
for { int i 0; i < dev«1; ++i ) 
length[i] displ[i«1] - displ[i]; 


for { int i 0; i < dev«1; ++i ) 
sumLengthOverT += length[i] / tth[il; 
for ( int 1 = 0; i « dev; 4*1 ) 
displ[i«1] = displ[i] + round( (displ[dev+1] * length[i]) / 
(tth[i] *sumLengthOverT) ); 


} 


图 11-17 在 每 个 时 间 步 长 之 后 计算 新 的 位 移 ， 在 这 里 将 aispl[0] 初始 化 为 0， 
将 displ [dev+1] 初始 化 为 n 


e 由 于 每 个 设备 都 有 原先 数据 的 最 新 版 本 ， 所 以 只 需要 从 主机 获取 额外 增加 的 数据 即 
可 。 这 最 多 需要 两 个 数组 段 就 可 以 完成 。 同 时 ， 因 为 这 里 不 存在 数据 一 致 性 的 问题 ， 
所 以 问 所 有 设备 发 送 数 据 可 以 并 行 执 行 。 
图 11-18 展示 了 最 终 的 循环 。 现 在 可 以 在 包含 两 个 Intel Xeon Phi 协 处 理 需 设备 的 机 需 
上 运行 该 代码 。 最 终 版 本 代码 的 性 能 与 之 前 版 本 的 性 能 对 比如 图 11-19 所 示 。 





for ( iot it = Oy it e 1007 a+it ) f 
size t s = displ[tid], 1 = displ[tid+1] - displ[tid]; 
double tt - omp get wtime(); 
Newton( n, s, 1, 0.01, tid, dev ); 
tth[tid] = omp get wtime() - tt; 
#pragma omp critical 


#pragma omp target update device( tid ) ^ 
if( tid < dev ) \ 
from( x[s:l]l, yIs:1], z[s:1], VN 
vx[s:1], vy[s:1], vz[s:1] ) 


#pragma omp barrier 
#pragma omp target update device( tid ) \ 
if( tid < dev ) \ 
toi x[0:81, yl0:sl]l, z[Os:sl, \ 
vx[0:s], vy[0:s], vz[0:s] ) 
size t sl = stl, ll = n-s-1; 
#pragma omp target update device( tid ) \ 
if( tid « dev) \ 
col s«[s1:11], vyIS1:11], Z[S1:21X3]1, S 
vx[si:ll], vy[si:lil]l, vz[si1:11] ) 
#pragma omp single 
computeDisplacements( displ, tth, dev ); 





图 11-18 最 终 的 主 时 间 循 环 


图 11-20 展示 了 在 开发 平台 上 一 个 Intel Xeon 处 理 器 和 两 个 Intel Xeon Phi HME IARE 
如 何 动态 保持 工作 负载 (粒子 数 比例 ) 均衡 的 。 从 图 中 可 以 非常 清晰 地 看 出 ， 经 过 前 几 次 迭 
代 的 “热身 ”之 后 ， 负 载 均衡 基本 稳定 了 。 从 这 一 点 上 ， 我们 可 以 说 尽管 第 二 个 设备 的 性 能 
要 稍微 好 一 点 ”， 但 是 采用 的 方法 透明 地 实现 了 几乎 最 佳 的 性 能 。 


昌 我 们 以 不 同 的 方式 验证 了 性 能 差异 。 
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单 精度 | 双 精 度 
图 11-19 与 在 两 个 Intel Xeon E5-2660 v2 Ivy Bridge 处 理 器 上 的 性 能 相 比 ， 最 新 
版 本 的 代码 在 单 精度 和 双 精 度 上 的 性 能 加 速 比 ( 越 高 越 好 ) 


0.6. — 
0.5. 

0.44] 一 设备 0 
0.3  c-——— o 一 二 机 


图 11-20 包含 开发 平台 上 主机 处 理 器 的 所 有 计算 设备 工作 负载 分 配 比例 的 变化 情况 


在 这 个 阶段 ,我 们 可 以 认为 这 份 代码 已 经 可 以 动态 调整 自己 的 运行 时 环境 来 充分 利用 所 
有 的 可 用 计算 资源 。 然 而 ， 我 们 依然 可 以 考虑 如 下 改进 ， 以 使 代码 在 应 对 其 他 可 能 的 情况 时 
更 有 弹性 。 
e 数据 传输 可 以 独立 计时 以 评估 它们 对 性 能 的 影响 。 
e 当 计 算 平台 中 的 有 些 设备 与 其 他 设备 相 比 处 理 速度 非常 慢 (可 能 由 于 这 些 设备 的 固 
有 性 能 ， 也 可 能 由 于 它们 引发 的 数据 传输 时 间 ) 时 ， 可 以 考虑 完全 不 使 用 这 些 计算 
设备 。 
这 两 个 改进 都 是 非常 值得 探讨 的 方法 ， 并 且 应 该 会 被 致力 于 发 布 最 优 代 码 的 开发 者 所 
考虑 。 然 而 ， 它 们 都 超出 了 本 章 的 讨论 范围 ， 同 时 ， 这 些 优化 方法 的 引入 将 会 使 代码 可 读 性 
降低 。 


11.6 更 多 信息 


下 面 是 与 本 章 相关 的 一 些 额 外 阅读 材料 : 

e 牛顿 运动 定律 ，http://en.wikipedia. org/wiki/Newton%27s laws. 

e 牛顿 万 有 引力 定律 ,http://wikipedia.org/wiki/Newton%27s law of universal gravitation。 
e OpenMP 4.0 标准 规范 , http://www.openmp.org/mp-documents/OpenMP4.0.0.pdf. 

e 本 章 及 其 他 章 代 码 下 载 地 址 ，http://lotsofcores.com。 
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并 发 内 核 即 载 





Florian Wende’, Michael Klemm’, Thomas Steinke’, Alexander Reinefeld' 
“德国 ， 柏 林 Zuse 研究 所 ， t46, Intel 


Intel Xeon Phi 产品 家 族 为 能 够 在 不 同 粒度 上 并 行 的 任务 提供 了 非常 强大 的 计算 设备 。 当 

需要 处 理 大 规模 数据 时 ，Intel Xeon Phi 协 处 理 器 上 所 有 的 可 用 计算 资源 都 将 得 到 充分 利用 。 
但 是 ， 对 于 不 能 充分 利用 计算 资源 的 小 规模 工作 负载 ， 协 处 理 器 还 有 吸引 力 吗 ? 

本 章 将 详细 论述 当 有 大 量 处 理 小 规模 数据 的 任务 时 ， 如 何 充分 利用 Intel Phi 协 处 理 器 潜在 
的 计算 能 力 。 这 是 非常 重要 的 ， 因 为 支持 多 级 并 行 执行 流 的 创新 算法 数量 正在 不 断 增 加 。 当 从 
主机 程序 的 并 行 实例 加 载 到 Intel Xeon Phi 协 处 理 右 上 后 ， 将 会 为 协 处 理 带 产生 足够 的 工作 负载 。 

注意 ”本章 优 化 的 最 终 目 标 是 通过 多 个 内 核 的 并 发 卸载 ， 提 高 小 规模 工作 负载 在 ntel 
Xeon Phi 协 处 理 器 上 的 吞吐 量 。 


12.4 设 定 上 下 文 


对 于 很 多 特定 类 型 的 工作 负载 和 生产 环境 ， 多 个 内 核 并 发 印 载 是 提高 Intel Xeon Phi Hh 
处 理 器 计算 吞吐 量 和 计算 资源 利用 率 的 根本 方法 。 为 简单 起 见 ， 这 里 只 使 用 一 个 协 处 理 需 ， 
可 能 的 应 用 场景 如 图 12-1 所 示 。 
e 单个 主机 进程 或 线程 卸载 到 一 个 专用 协 处 理 器 。 这 是 在 今天 的 HPC 生产 环境 中 常见 
的 应 用 场景 ， 每 个 计算 节点 只 分 配 一 个 用 户 作 业 。 
m 每 次 卸载 大 规模 数据 集 能 够 有 效 利用 协 处 理 器 的 计算 资源 ( 见 图 12-1a)。 
m 多 个 不 同 计算 密度 的 内 核 依 次 卸载 ， 可 能 会 导致 协 处 理 咒 计算 资源 的 低 利 用 率 CUL 
图 12-1b)。 

m 多 个 内 核 并 发 (小 规模 ) 卸载 ， 能 够 提高 设备 的 利用 率 ( 见 图 12-1c)。 

e 多 个 主机 进程 或 者 线程 卸载 到 一 个 共享 的 协 处 理 器 。 传 统 的 例子 是 有 复杂 工作 流 或 
者 并 发 执行 步骤 、 面 向 吞吐 量 的 单 用 户 生 产 环境 (图 12-14). 

e 却 载 到 一 个 远程 共享 协 处 理 器 。 如 果 协 处 理 器 虚拟 化 ， 就 可 在 其 上 运行 多 个 远程 节 
点 中 的 工作 负载 (LE 12-1d)。 然 而 ， 需 要 制定 有 效 的 调度 策略 防止 资源 的 过 度 利 
用 。 在 并 不 是 每 个 计算 节点 都 装配 协 处 理 器 的 云 计 算 环 境 中 ， 这 是 常见 场景 。 

本 章 主要 论述 在 主机 使 用 MPI 或 者 OpenMP 实现 并 行 并 且 其 内 核 可 并 发 卸载 (如 图 12-1c 
和 图 12-1d 所 示 ) 的 应 用 程序 。 从 小 规模 负载 简单 的 批 处 理 到 存在 协同 印 载 的 复杂 (并 行 ) 
应 用 程序 ， 存 在 许多 这 样 的 实际 例子 。 在 介绍 这 些 例子 时 ， 除 了 描述 一 些 通用 方法 ， 本 章 还 
将 涉及 很 多 主机 和 协 处 理 器 安装 的 有 用 技术 。 


12.1.1 粒子 动力 学 
粒子 动力 学 (PD) 模拟 的 核心 是 计算 个 粒子 中 的 粒子 i 受到 的 其 他 所 有 粒子 Cj 9 i) 
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的 作用 力 ， 即 (R=) E), JHEHISUSTE HI, this al E RER RE TA BE 
随时 间 的 发 展 变化 。 根 据 牛 顿 第 三 定律 = -Fi;， 作 用 力 的 对 称 性 可 以 成 倍 地 减少 作用 力 的 
计算 量 。 当 可 以 非常 容易 地 串 行 计算 作用 力 时 ， 并 行 计算 作用 力 会 产生 访 存 限制 和 同步 的 困 
难 。 这 个 困难 是 当 计 算 作 用 力 F; 时 ,会 用 到 来 自 不 同 线程 的 子 作 用 力 Fj;。 解 决 这 个 问题 的 
一 个 简单 方法 是 为 每 个 线程 分 配 单独 的 缓冲 区 来 保存 所 有 的 子 作 用 力 ， 然 后 对 所 有 缓冲 区 进 
行 合 并 。 然 而 ， 内 存 的 消耗 会 随 着 线程 数目 的 增多 而 增加 。 
FHH $8] 
内 核 利用 率 ARIK ORK 
a) b) c) d) 
图 12-1 内 核 印 载 到 Intel Xeon Phi 协 处 理 器 上 的 场景 一 一 一 个 主机 进程 或 者 线程 : a) 利用 整个 协 处 
Hir; b) 多 个 不 同 计算 密度 的 内 核 依次 印 载 ， 协 处 理 器 计算 资源 的 利用 率 变 化 很 大 ; c) H 
载 多 个 并 发 内 核 到 协 处 理 器 上 ; d) 多 个 主机 进程 或 线程 印 载 多 个 内 核 到 一 个 共享 的 协 处 理 硕 
仅 使 用 一 个 额外 缓冲 区 ， 我 们 就 可 以 做 得 更 好 。 但 是 这 样 会 存在 显 式 栅 栏 同 步 的 开销 
( 见 12.3 节 )。 图 12-2 显示 了 使 用 这 个 方法 进 
ÍT PD 模拟 的 性 能 。 对 于 所 有 数据 点 ， 在 Intel 使 用 并 发 卸载 
Xeon Phi 协 处 理 器 上 印 载 一 个 内 核 进 行 处 理 ， inca 
用 于 计算 作用 力 的 线程 数目 从 60 增长 到 240, 
显然 ， 程 序 性 能 的 可 扩展 性 并 不 好 。 事 实 
上 ， 在 16000 个 粒子 的 情况 下 ， 可 以 接受 的 可 
扩展 性 只 能 达到 30 个 线程 。 所 以 ， 问 题 是 : 
我 们 不 再 仅 印 载 一 个 内 核 ， 使 240 个 线 


Gigalnteractions/s 





程 处 理 所 有 作业 。 能 否 通过 并 发 捉 载 8 个 内 核 "nm = 
(每 个 内 核 使 用 30 个 线程 完成 整个 系统 计 肯 量 图 12.2 pp 模拟 性 能 :使 用 牛顿 第 三 定律 计算 
的 1/8 ) 来 提高 性 能 呢 ? 16 000 个 粒子 的 作用 力 。 性 能 指标 是 

这 个 问题 的 答案 是 完全 可 以 ,但 我 们 需要 每 秒 计算 多 少 粒 子 间 的 相互 作用 ， 单 
考虑 一 系列 相关 技术 。 首 先 介 绍 这 些 技术 ， 然 位 为 10"， 简 写 为 “GigaInteractions/S” 
Ja Br Io] 8j PD 模拟 进行 改进 。 ( 越 大越 好 ) 


12.1.2 本章 结构 


当 在 Intel Xeon Phi 协 处 理 器 上 务 载 多 个 并 发 内 核 时 ， 最 重要 的 是 设备 的 划分 。 在 协 处 
理 硕 上 分 配 工作 而 没有 合适 设置 阶段 时 ， 可 能 会 导致 性 能 降低 。 这 是 因为 线程 组 可 能 以 一 种 
遭 糕 的 方式 相互 通信 。12.2.1 节 将 会 讲述 在 并 发 模式 下 如 何 实现 线程 和 计算 内 核 (core) 的 
映射 。 我 们 将 会 使 用 Intel MKL (Math kernel Library)， 通 过 多 个 小 规模 dgemm 计算 来 学 习 
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不 同 关联 对 性 能 的 影响 ， 并 以 此 来 强调 线程 组 织 和 映射 的 重要 性 。 

除 内 核 执 行 之 外 ， 主 机 和 协 处理 需 间 的 数据 传输 同样 会 影响 程序 性 能 。 至 少 在 主机 执行 
的 开始 和 结束 阶段 是 需要 数据 传输 操作 的 。 连 续 内 核 和 卸载 操作 间 的 频繁 数据 传输 Ct Lae 
代 算法 ) 会 严重 降低 程序 性 能 。 即 使 当 只 有 一 个 主机 线程 或 进程 将 任务 印 载 给 协 处 理 器 时 ， 
对 性 能 的 影响 也 很 大 (即使 看 起 来 很 小 )。12.2.2 节 将 会 以 并 发 MKL dgemm 计算 为 例 ， 讨 
论 主机 和 协 处 理 需 间 的 数据 传输 对 性 能 的 影响 并 会 重点 讨论 使 用 MPI 和 OpenMP if fy Hl ek 
的 重要 不 同 。 

最 后 ，12.3 TP, RMI A BAIA LAB PD 模拟 中 ， 并 说 明 处 理 同 样 问 
题 时 ， 多 个 小 规模 鼻 载 是 如 何 超过 一 个 大 规模 伯 载 的 。 我 们 在 这 方面 的 研究 解决 了 如 何 协作 
JF SUERTE EA [n] ek 

注意 : 映射 和 软件 设置 

对 于 协 处 理 器 基准 测试 ， 本 章 使 用 的 计算 平台 配备 双 插 构 Intel Xeon X5680 LHS (A 
有 24GB 内 存 )， 以 及 两 块 安装 在 PCIe x16 4628 E45 Intel Xeon Phi 7120P 协 处 理 器 。 每 个 
协 处 理 器 有 61 个 物理 CPU 内 核 ， 每 个 内 核 为 四 路 硬件 多 线程 ， 并 配备 16GB 主 存 。 在 实 
际 测 试 中 ， 我 们 只 使 用 其 中 的 60 个 内 核 。 这 是 因为 当 使 用 趣 载 模式 时 ， 最 好 将 一 个 内 核 
用 于 协 处 理 器 上 的 操作 系统 。 主 机 运行 CentOS 6.3 linux 操作 系统 (其 内 核 为 2.6.32-279 ), 
Intel MPSS 3.1.4 也 安装 。 代 码 编 译 使 用 Intel C++Compiler 14.0.3 和 Intel MPI 4.1.1.036. 
我 们 使 用 的 编译 选项 为 : -03 -xHost -openmp -fno-alias -opt-assumesafe- 
padding -std=c++11, 

对 于 处 理 器 基准 测试 ， 本 章 使 用 的 计算 平台 包含 双 插 模 Intel Xeon E5 2670 处 理 器 ， 
超 线 程 共 有 32 个 逻辑 CPU 内 核 (启用 超 线 程 )。 该 计算 平台 同时 配备 64GB 内 存 ， 运行 
CentOS 6.3 Linux 操作 系统 (其 内 核 为 2.6.32-279 )。 同 时 也 配备 了 可 以 和 协 处 理 器 基准 测试 
A FFA KW AF ARK o 

本 章 代 码 示 例 使 用 Intel RIE A 3 KE (Language Extension for Offload, LEO) 编写 。 
sES Bg, ASRS AT EAA “Ate” di, FESR Bye FE OpenMP 
4.0。 我 们 已 经 这 样 做 了 并 提供 OpenMP 4.0 版 本 代码 的 下 载 。 然 而 ， 出 于 一 致 性 ， 本 章 所 有 
的 代码 段 都 使 用 LEO。LEO 和 OpenMP 4.0 版 本 的 完整 源 代码 可 从 http : //lotsofcores.com 
下 载 。 


12.2 协 处 理 器 上 的 并 发 内 核 


印 载 模式 是 将 不 完全 并 行 的 主机 程序 (本 机 模式 并 不 适用 ) 移植 到 Intel Xeon Phi 协 处 理 
船上 的 标准 方法 。 作 为 与 主机 相互 独立 的 协 处 理 器 ， 是 文 持 多 个 印 载 程序 的 同时 执行 的 。 然 
而 ， 如 果 没 有 建立 合适 的 线程 和 内 核 映 射 关 系 ， 可 能 会 影响 多 个 并 发 印 载 任务 的 相互 通信 。 


12.2.1 协 处 理 器 设备 划分 和 线程 关联 


Intel Xeon Phi 协 处 理 絮 可 运行 Linux 操作 系统 。 然 而 ， 该 操作 系统 不 对 用 户 提 供 服 务 ， 
而 是 负责 将 任务 调度 到 协 处 理 器 的 CPU 内 核 上 。 为 了 实现 并 行 ， 协 处 理 器 实现 了 对 MPI 和 
OpenMP 编程 模型 的 原生 支持 。 而 在 印 载 代码 部 分 ，OpenMP 是 常用 方法 。 和 和 在 主机 系统 
上 执行 OpenMP 程序 一 样 ， 可 以 通过 设置 环境 变量 (如 KMP AFFINITY 和 OMP PLACES) 
获取 特定 线程 的 上 映射。 在 非 并 发 环境 中 设置 这 些 环境 变量 的 影响 是 众所周知 的 。 然 而 ,在 
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多 个 主机 线程 或 者 进程 并 发 将 任务 卸载 到 协 处 理 器 上 的 情况 下 ， 却 并 不 是 这 样 。 我 们 使 用 
图 12-3 中 的 代码 说 明 不 同 映射 机 制 的 影响 。 特 定 线程 的 CPU 标记 位 ， 可 通过 调用 sched_ 
getaffinity() 函数 获得 ( 见 代码 清单 )。 可 通过 线程 的 CPU 标记 位 来 获得 运行 这 个 线程 
的 CPU 内 核 。 


#pragma omp parallel num threads (m) // mthreads on the host 
{ 


int hostId-omp get thread num(); 

#pragma offload target (mic:0) 

{ 
#pragma omp parallel num_threads(n) // n threads per offload 
{ 


int phild-omp get thread num(); 
cpu set t cpuMask; 
sched_getaffinity (0, sizeof (cpu_set_t) , &cpuMask) ; 
printf ("thread (hostId-$d, phild=%d): ",hostId,phild) ; 
for(int 1=0;1<256;1i++) 
if (CPU. ISSET (i, &cpuMask)) 

qp M ie T2213 à 

printf (Nr 





图 12-3 ”确定 线程 - 内 核 映 射 关 系 的 代码 


为 了 在 协 处 理 器 上 建立 环境 变量 的 特定 参数 (可 能 与 主机 不 同 )， 我 们 将 环境 变量 MIC_ 
ENV PREFIC 的 值 设 定 为 MIC。 在 协 处 理 右 上 触发 卸载 运行 时 ， 以 使 用 分 配给 MIC XXX 
的 参数 对 XXX 的 参数 进行 重 写 。 

环境 变量 MIC KMP AFFINITY 可 以 设 定 为 compact, scatter 和 balancedq。 环 
境 变 量 MIC_OMP PLACES 可 以 设 定 为 threads cores 和 sockets。 和 预想 的 一 样 ， 
我 们 发 现 平 衡 机 制 没有 发 挥 作 用 。 同 时 ， 在 Intel Xeon Phi 协 处 理 器 上 设 定 “socket” 人 参数 
是 没有 意义 的 ， 因 为 只 有 一 个 套 接 字 。 对 于 其 他 映射 机 制 ， 当 使 用 OpenMP 和 MPI ERIE 
务 到 协 处 理 副 上 时 ， 我 们 将 研究 在 并 发 模式 下 线程 - 内 核 的 映射 关系 。 

OpenMP 下 的 和 扼 载 模式 

当 将 环境 变量 MIC KMP AFFINITY 设 定 为 scatter 或 者 compact 时 ， 协 处 理 器 上 
的 每 一 个 线程 都 只 映射 到 一 个 逻辑 CPU 内 核 上 。 当 设 定 为 scatter 时 ， 所 有 的 线程 将 根 
ju CPU 内 核 的 逻辑 ID 将 线程 平均 分 布 到 整个 系统 中 。 注 意 ， 在 这 种 情况 下 ， 相 邻 线程 映射 
到 的 CPU 逻辑 ID 跨度 可 能 会 大 于 1。 当 设 定 为 compact 时 ,线程 将 依次 分 配 到 物理 CPU 
内 核 上 。 当 回 协 处 理 器 并 发 印 载 任务 时 ， 御 载 部 分 的 并 行 区 域 也 将 并 发 创建 。 这 样 的 结果 就 
是 无 法 保证 将 相同 印 载 区 域 的 线程 映射 到 连续 的 〈 逻 辑 ) 内 核 上 。 这 对 于 scatter 机 制 是 无 关 
紧要 的 ， 因 为 协 处 理 融 的 所 有 物理 内 核 都 是 一 样 的 。 然 而 ， 对 于 compact 机 制 +8 mA EX 
域 的 线程 可 能 会 映射 到 不 同 的 物理 内 核 上 ， 即 使 它们 应 该 映射 到 同一 个 物理 内 核 上 。 

MIC OMP PLACES-threads 和 MIC KMP AFFINITY-compact 的 效果 是 一 样 的 。 
当 MIC_OMP_PLACES=cores 时 ， 线 程 将 会 被 分 配 到 所 有 的 物理 内 核 上 。 如 果 协 处 理 器 上 
开局 的 线程 总 数量 大 于 物理 内 核 数 量 ， 将 会 多 次 分 配 逻 辑 内 核 。 不 同 印 载 区 域 的 线程 也 因此 
会 被 分 配 到 相同 的 物理 内 核 上 。 这 些 线程 也 因此 会 以 一 种 糟糕 的 方式 彼此 相互 干扰 。 

图 12-4 说 明了 如 果 m = 4 个 主机 线程 印 载 任 务 到 协 处 理 嚣 上， 每 个 印 载 区 域 开 启 4 个 
线程 ,不同 线程 映射 机 制 的 影响 。 在 图 12-4 左边 部 分 中 ,线程 - 内 核 映 射 不 连续 现象 特别 
明显 (如 “compact” 模 式 )。 当 缉 载 程序 使 用 缓存 优化 时 ， 这 种 情况 会 导致 性 能 的 降低 。 
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#pragma omp parallel num threads (4) 
{ 


a a a a a a | 


#pragma offload target (mic: 0) 
{ 


#pragma omp parallel num_threads (4) 
{ "create threads on Xeon Phi" } 


ed 
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#pragma omp critical // only first offload 
{ 


#pragma offload target (mic:0) 


#pragma omp parallel num_threads (4) 
{"create threads on Xeon Phi" } 


< 和 


MIC KMP AFFINITY-compact 
MIC OMP PLACES-threads 


本 名 图 由 出 由 出 由 轴 
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MIC OMP PLACES-cores 


) 
} 
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图 12-4 ”环境 变量 MIC KMP AFFINITY 和 MIC OMP PLACES 设 定 不 同 值 时 对 线程 - 
关系 的 影响 。m = 4 个 主机 线程 将 任务 并 发 印 载 到 协 处 理 器 上 ， 每 个 印 载 区 域 开 局 却 = 
个 线程 。 协 处 理 顺 的 物理 内 核 用 包含 4 个 分 块 (HT0..3 ) 的 正方 形 表示 ， yiii 
一 个 分 块 。 不 同 的 填充 代表 在 并 发 卸载 时 线程 — 内 核 的 映射 关系 。 左 边 的 映射 是 非 连续 


的 ; 相同 印 载 区 域 的 线程 没有 映射 到 连续 的 (逻辑 ) 内 核 上 ( 见 “ compact" Hil). A 


边 的 映射 修正 了 这 个 行为 ， 从 程序 开始 处 印 载 到 协 处 理 占 上 是 相互 排斥 的 


消除 并 发 印 载 情况 下 线程 -内核 映射 不 连续 现象 的 一 个 简单 解决 (修正 ) 方法 是 : 从 程 


序 开始 使 种 载 操作 是 互 太 的， 并 且 在 真正 的 卸载 计算 执行 之 前 ， 在 印 载 区 域内 部 开启 所 有 需 


要 的 线程 。 如 图 12-4 右边 部 分 所 示 ， 我 们 需要 在 图 12-3 所 示 代 码 中 的 第 一 


一 个 Critical 区 。 


次 印 载 区 域 设 置 


然而 ， 即 使 如 此 ， 执 行 两 次 程序 并 不 保证 相同 的 线程 - 内 核 映射 。 为 了 解决 这 个 问题 ， 


如 图 12-5 所 示 ， 可 以 通过 使 用 Linux 调度 接口 (例如 ， 


将 线程 分 配 到 内 核 上 。 


sched setaffinity())， 显 式 


#pragma offload target (mic:0) 
{ 


#pragma omp parallel num threads(4) // four threads on Xeon Phi 
{ 


int threadId-omp get thread num(); 

cpu set t cpuMask; 

CPU ZERO(&cpuMask); // clear cpuset 

CPU SET(1*2*x44threadId, &cpuMask); // use 3rd physical core 
sched setaffinity(0,sizeof(cpu set t),&cpuMask); 





图 12-5 调用 Linux 调度 接口 完成 线程 - AKA SRT. FE PEP, FARE 
域 开 启 n= 4 个 线程 ， 显 式 地 将 所 有 线程 映射 到 第 三 个 物理 内 核 上 

注意 ” 当 在 多 线程 应 用 程序 中 进行 并 发 卸载 时 ,使 卸载 操作 互 扩 进行， 并 且 在 真正 的 纯 

载 计算 执行 之 前 开启 协 处 理 器 侧 的 线程 是 非常 有 意义 的 。 在 这 种 方式 下 ， 印 载 区 域 的 线程 关 

联 将 会 和 MIC KMP AFFINITY 以 及 MIC OMP PLACES 设置 的 参数 一 致 。 
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MPI 下 的 卸载 模式 


MPI 主机 程序 使 用 不 同 MPI 进程 进行 并 发 卸载 时 ， 会 产生 困难 。 因 为 ， 在 理论 上 ， 每 
个 进程 都 假设 会 以 互 斥 的 方式 同 其 他 进程 使 用 协 处 理 需 。 

设置 诸如 MIC_KMP REFEFINITY 或 者 MIC_OMP PLACES 等 环境 变量 仅 会 影响 单个 进 
程 ， 但 不 能 够 解决 协 处 理 器 的 划分 和 线程 映射 问题 。 特 别 是 ， 每 个 进程 的 印 载 运行 时 和 它们 
的 鲫 载 操 作 并 不 协调 。 因 此 ， 可 能 会 将 协 处 理 器 上 的 线程 映射 到 同一 个 执行 单元 ， 从 而 导致 
协 处 理 器 内 核 的 过 度 使 用 。 

针对 这 个 问题 一 个 显而易见 的 方法 是 实现 一 个 显 式 的 线程 划分 (thread pinning) 方案 ， 
例如 ,使 用 sched_ setaffinity() 图 数 ， 结 合 一 些 逻 辑 ， 根 据 进程 数 划 分 设备 。 然 而 ， 
通过 设置 环境 变量 MIC KMP PLACE THREADS-XXc,YYt,ZZO 也 能 实现 相同 功能 。 该 环 
境 变量 允许 将 协 处 理 器 划分 成 多 个 块 。 例 如 ， 分 块 (XXc, YYt, ZZO) 包含 一 组 从 22 开始 
的 XX 个 连续 的 协 处 理 器 内 核 。YY € {1,2,3,4} 为 每 个 内 核 可 用 的 硬件 线程 数目 。 环 境 变 量 
MIC KMP AFFINITY 和 MIC OMP PLACES 定义 了 当 炙 载 操作 执行 时 ， 块 内 线程 - 内 核 的 
映射 。 

例如 ， 如 果 使 用 m = 2 个 MPI 进程 将 计算 印 载 到 一 块 Intel Xeon 7XXX Phi 协 处 理 器 上 ， 
每 次 印 载 开启 n= 60 个 线程 。 我 们 可 以 这 么 做 : 


$» mpirun ~genv MIC OMP NUM THREADS-60 
-np 1 —env MIC KMP PLACE THREADS=30c,2t,00 ./prog.x : 
-np 1 -env MIC KMP PLACE THREADS=30c,2t,300 ./prog.x 


注意 在 MPI 应 用 程序 中 ， 要 建立 印 载 区 域内 一 个 特殊 的 线程 划分 机 制 ， 需 要 在 协 处 
理 器 上 定义 显 式 的 线程 - 内核 映射 或 者 需要 设备 划分 和 线程 映射 ， 例 如 通过 MIC KMP_ 

PLACE THREADS 和 MIC KMP AFFINITY 或 MIC OMP PLACES 两 个 环境 变量 。 

案例 研究 : Intel MKL dgemm 并 发 卸载 

BLAS (basic linear algebra subprograms， 基 本 线性 代数 子 程序 ) 对 许多 科学 计算 代码 非 
常 重要。 对 于 通过 线程 或 者 进程 的 执行 路 径 调 用 大 量 和 矩阵 - 矩阵 乘法 计算 的 并 行 应 用 程序 ， 
如 果 将 这 部 分 工作 移植 到 协 处 理 器 上 以 更 快 执行 ， 很 有 可 能 提升 整个 程序 的 性 能 。 

现在 我 们 考虑 如 何 使 用 多 个 并 发 OpenMP 线程 和 MPI 进程 将 MKL dgemm $E SI SC] 
协 处 理 硕 上 执行 。dgemm 是 用 来 评估 不 同 线程 - 内 核 映 射 机 制 对 整个 程序 性 能 影响 的 一 个 
非常 合适 的 例子 。 这 主要 有 两 方面 的 原因 : 第 一 ，MKL dgemm 是 经 过 缓存 优化 的 ， 所 以 
不 好 的 线程 — 内 核 映 射 应 该 会 对 程序 的 整体 性 能 产生 消极 影响 。 第 二 ， 这 个 案例 允许 我 们 实 
际 人 研究 线程 核 — 内 核 间 的 映射 ， 而 不 会 受到 共享 协 处 理 器 主 存 带 宽 的 所 有 并 发 印 载 操作 的 
影响 。 

图 12-6 是 基准 测试 程序 的 核心 代码 。 主 机 和 协 处 理 需 间 的 数据 传输 将 会 在 12.2.2 节 中 
进行 讨论 。 现 在 ， 主 要 讨论 名 载 计 算 。 

注意 : 并 发 内 核 的 计时 

为 了 在 协 处 理 器 上 评估 多 个 并 发 计算 的 性 能 : 首先 我 们 取得 每 个 线程 或 者 进程 的 每 一 个 
并 发 卸载 (有 多 个 ) 的 开始 和 结束 时 间 ， 然 后 确定 一 个 时 间 段 (并 发 窗口 )， 在 这 个 并 发 窗口 
内 ， 所 有 的 进程 或 者 线程 都 有 重合 的 卸载 操作 。 并 发 窗口 可 通过 所 有 进程 或 者 线程 的 第 一 次 
印 载 的 最 晚 开 始 时 间 和 最 后 一 个 卸载 操作 的 最 时 结束 时 间 获 得 。 在 这 个 时 间 段 内 ， 我们 假设 
100% 的 并 发 。 通 过 计算 落 在 并 发 窗口 的 卸载 操作 的 数量 ， 我们 可 以 获得 性 能 指标 。 
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double start [15] [numOffloads], stop[15] [numOffloads]; 
#pragma omp parallel num_threads (15) 
{ 


double *a=_mm_malloc (N*«N«sizeof (double), 64),*b=..,*c=..; 
// #pragma omp critical // our “fix” 
IE d 


// initialize a[], b[] and create persistent buffers on Xeon Phi for a[], b[] and c[] 
#pragma offload target (mic:0)\ 
in(a:length(N«*«N) align(64) alloc if(1) free_if(0))\ 
in(b:length(N*N) align(64) alloc if(1) free if(0))WV 
nocopy(c:length(N*N) align(64) alloc if(1) free if(0)) 


mkl set num threads(16); // use 16 threads on Xeon Phi 
#pragma omp parallel num threads (16) 


{ 
; // just create threads! MKL uses OpenMP. 
} 
} 
// ] 
#pragma omp barrier 
for(int i=0;i<numOffloads;i++){ // now start the offload computations 
start [omp_get_thread_num() ] [1]=get_time_stamp() ; 
#pragma offload target (mic:0) \ 
in(a:length(0) alloc_if(0) free_if(0))\ 
in(b:length(0) alloc_if(0) free_if(0))\ 
out (c:length(0) alloc_if(0) free_if(0)) 
{ 
cblas dgemm(..); // matrix-matrix multiplication: c =a +b 


} 
Sstop[omp get thread num()][i]-2get time stamp(); 


// release memory a[], b[] and c[] on host and Xeon Phi 


) 
// determine concurrent performance: extract concurrency window from start[][]. stop[][] 





图 12-6 MKL 中 dgemm 基准 测试 的 核心 代码 : ERRAK NN, WH m = 15 个 主机 
fe, KARINA n= 16 个 协 处 理 器 线程 ， 这 样 总 共 开 启 了 240 个 线程 ， 与 
Intel Xeon Phi 协 处 理 器 的 逻辑 核 数量 一 致 。 协 处 理 名 上 缓存 的 分 配 由 alloc 
if 和 free_if 管理 。 在 协 处 理 器 和 主机 间 没 有 数据 传输 


在 dgemm 这 个 例子 中 ， 性 能 指标 通过 用 并 发 窗口 中 钊 载 操 作 的 数量 乘 以 每 次 矩阵 — 3B 
阵 乘 法 计算 的 浮 点 数 操作 数量 ， 然 后 除 以 并 发 窗口 长 度 获得 。 通 过 这 种 方法 ， 我 们 可 以 获得 
每 次 执行 的 FLOPS ( floating point operations per second， 每 秒 执行 的 浮 点 操作 次 数 )。 在 所 
有 的 例子 中 ， 我 们 的 方法 都 会 低估 程序 性 能 ， 但 不 会 高 佑 。 这 是 非常 重要 的 ， 人 否则 这 里 的 结 
果 就 过 于 乐观 了 。 

图 12-7 显示 了 并 行 执行 m = 15 ERIRE, RETE n = 16 OpenMP 线程 时 ， 在 
Intel Xeon Phi 协 处 理 器 上 的 浮 点 性 能 。 测 试 规模 为 2048 x 2048 的 矩阵 在 不 同 线程 - 内 核 
映射 机 制 下 的 性 能 。 每 个 主机 线程 或 者 进程 卸载 100 个 dgemm 计算 到 协 处 理 融 上 。 我们 比 
较 了 分 别 使 用 MPI 和 OpenMP 执行 钙 载 操作 的 性 能 。 当 使 用 MPI 时， 我 们 使 用 MIC_KMP_ 
PLACE THREADS 环境 变量 来 实现 需要 的 设备 划分 。 

图 12-7a 说 明了 通过 使 用 sched setaffinity() 实现 协 处 理 器 上 显 式 线程 划分 与 使 
用 环境 变量 (环境 变量 没有 使 用 定义 的 值 ) 时 的 性 能 差距 。 显 式 线程 划分 类 似 于 “compact 
机 制 。 在 这 种 情况 下 ， 执 行 相同 矩阵 — 矩阵 乘 的 线程 将 共享 相同 的 物理 内 核 的 L1 缓存 。 因 
此 ， 当 环境 变量 没有 设置 为 定义 的 值 时 ， 非 连续 的 线程 — 内 核 映 射 的 缺点 就 非常 明显 了 。 当 
使 用 它 时 , “compact” 机 制 接 近 于 显 式 线程 划分 ， 所 以 我 们 只 显示 了 “compact” 机 制 的 性 
能 图 。 另 外 ， 可 以 看 出 “scatter” 机 制 下 ， 真 实 的 线程 - 内 核 映 射 并 不 重要 ， 因 为 协 处 理 融 
上 的 物理 内 核 都 是 一 样 的 。 
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图 12-7b (MPI) 只 包含 了 “scatter” 和 “compact” 两 种 机 制 下 的 性 能 情况 。 这 两 种 机 
制 都 是 在 恰当 划分 协 处 理 需 后 ， 通 过 设置 MIC_KMP AFFINITY-[scatter|compact] 
建立 的 。 可 以 看 出 ,性 能 情况 和 使 用 主机 线程 类 似 。 然 而 ,也 可 以 看 出 ，MPI 环境 的 建立 引 
入 了 开销 从 而 引起 了 性 能 的 小 幅 下 降 。 


MKL dgemm 性 能 , 2048 x 2048 和 矩阵 , 每 次 卸载 有 16 个 线程 
OpenMP 主机 w/o fix OpenMP 主机 w/fix MPI 主机 


-X sched e eee | x 
-à “compact” 

-e- “scatter” a 

= "no u^ "m 


GFLOPS 





2 4 6 8 10 12 14 2 4 6 8 10 12 14 2 4 6 8 10 12 14 
并 发 抒 载 数量 FFA VRE E FFA EIR E 
a) b) c) 


12-7 MKLdgemm Æ Intel Xeon Phi 7120P 协 处 理 器 上 的 性 能 。 总 共有 15 个 并 发 卸载 操作 ， 每 个 
印 载 操作 使 用 了 16 个 OpenMP 线程 。 性 能 图 显示 了 不 同 线程 - 内 核 映 射 对 整体 性 能 的 影响 。 
图 b 和 图 c 没 有 包括 通过 sched_setaffinity() 设置 显 式 线程 划分 时 的 性 能 。 因 为 它们 和 
“compact” 机 制 一样 。 当 在 主机 执行 MPI 时 ， 只 显示 了 “compact” 和 “scatter ”两 种 机 制 


协 处 理 器 上 的 持久 性 线程 组 和 线程 关联 

LEO Fl OpenMP 4.0 都 使 用 COI ( Coprocessor Offload Infrastructure) API 来 创建 协 处 
理 器 端的 进程 和 线程 (线程 组 )、 内 存 缓冲 区 以 及 协 处 理 器 和 主机 间 的 通信 通道 。 尤 其 是 对 
于 每 个 印 载 任务 到 协 处 理 器 的 主机 进程 ， 都 会 在 协 处 理 问 上 有 一 个 对 应 的 进程 。 在 进程 的 上 
下 文中 ,至 少 存 在 和 通过 执行 路 径 印 载 编译 指令 的 主机 线程 数目 一 样 的 线程 。 主 机 线程 和 
对 应 的 协 处 理 器 线程 通过 COIPipeline 相连 〈 见 Newburn et al., 2013 )。COIPipeline 为 协 处 
理 器 上 的 内 核 调用 实现 了 一 个 FIFO 命令 队列 ， 并 会 进行 高 达 几 千 字 节 的 数据 传输 〈 更 多 的 
数据 传输 使 用 COIBuffer 实现 )， 这 通常 会 有 通过 COIPipeline 调用 内 核 触发 。 这 其 中 重要 的 
一 点 是 : 通过 COIPipeline 构建 主机 与 协 处 理 需 线程 和 线程 间 的 连接 ， 维 持 了 在 协 处 理 硕 上 
OpenMP 并 行 区 域 的 线程 以 及 它们 对 应 的 关联 。 

注意 除非 并 行 区 域 的 形状 改变 ,否则 连续 的 (并 发 ) 印 载 操作 会 继承 之 前 印 载 操作 
的 线程 配置 。 因 此 ， 在 应 用 程序 开始 时 ， 使 用 的 特定 线程 划分 机 制 在 整个 执行 过 程 中 都 会 
有 效 。 


12.22 并 发 数据 传输 


当 将 计算 印 载 到 协 处 理 器 后 ， 至 少 在 计算 的 开始 和 结束 都 会 发 生 一 次 主机 和 协 处 理 器 
间 的 数据 传输 。 数 据 传输 也 时 常会 在 中 间 发 生 ， 比 如 相对 独立 的 连续 印 载 操 作 。 尽 管 在 并 发 
全 载 的 情况 下 ， 每 个 主机 线程 都 有 一 个 独立 的 COIPipeline 来 进行 内 核 的 调用 ， 但 在 目前 的 
COI 实现 中 ， 同 一 个 进程 上 下 文 的 所 有 数据 传输 会 使 用 共享 的 数据 通道 。 所 以 ， 当 在 主机 端 
使 用 多 个 OpenMP 线程 时 ， 数 据 传输 会 受到 共享 COI 资源 隐 式 串 行 和 竞争 的 影响 ， 从 而 也 
有 可 能 导致 内 核 串 行 执行 。 
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TE EBL sia f Hd MPI 进行 数据 传输 时 能 够 使 用 多 条 数据 通道 。 对 于 在 主机 和 协 处 理 需 间 
会 有 频繁 数据 传输 的 应 用 程序 而 言 ， 在 主机 上 使 用 MPI 代替 线程 应 该 会 获得 性 能 提升 。 然 
而 ， 这 仅 对 小 消息 有 效 。 对 于 大 消息 ， 特 别 是 一 次 数据 传输 就 可 以 充分 利用 PCIe 的 传输 带 
宽 时 ， 并 发 的 数据 传输 实际 上 串 行 化 了 。 

图 12-8 说 明了 当主 机 使 用 OpenMP 或 者 MPI 时 ， 针 对 不 同 大 小 的 数据 块 (消息 ) 和 不 
同 并 发 数据 传输 数量 的 数据 传输 时 间 上 所 有 的 数据 传输 时 间 :都 是 通过 在 前 面 介 绍 MKL 性 
能 评估 时 使 用 的 “并 发 窗口 ”方法 测 得 的 。 

从 并 行 主机 区 域 实现 主机 到 Xeon 的 数据 传输 





OpenMP 主 机 MPI 主 机 OpenMP vs. MPI 
n 1 le0 J 
=i g 
(a 2» 
Im x le-1 
E = 
1E T 1e-2 
3v Fa 
F le-3 
l 32 IK 32K IM 1 32 IK. 32K IM l 32 IK 32K IM 
— 包 大 小 [ 字 节 ] 包 大 小 [ 字 节 ] 包 大 小 [F] 
a) b) c) 


图 12-8 ”从 主机 到 协 处 理 器 传输 不 同 大 小 的 数据 块 时 的 传输 时 间 t 和 输出 速率 。 该 图 说 明了 当 使 用 
OpenMP 或 者 MPI 时 ， 增 加 并 发 数据 传输 次 数 对 性 能 的 影响 。 我 们 使 用 双 插 槽 Intel Xeon 
X5680 处 理 器 和 Intel Xeon Phi 7120P 协 处 理 器 ( 插 在 PCIe x 16 插 槽 中 ) 


图 12-8 中 的 性 能 点 是 从 25 次 独立 的 程序 运行 中 获取 的 最 短 数据 传输 时 间 。 对 于 每 次 执 
行 ， 并 发 窗口 (也 就 是 时 间 t) 都 是 由 每 个 线程 或 者 进程 执行 了 5000 次 数据 传输 (针对 不 同 
大 小 的 数据 包 ) 后 测 得 的 。 

在 图 12-8a 中 ， 当 数据 块 不 超过 16KB 时 ,数据 传输 时 间 几 乎 和 主机 线程 数目 成 正比 。 
因为 每 个 进程 只 有 一 个 数据 通道 ， 所 以 尽管 当 数 据 包 小 于 16KB 时 并 不 能 占 满 PICe 的 总 线 
带宽 ， 但 在 任意 时 刻 只 有 一 个 这 样 的 数据 包 在 执行 。 当 使 用 MPI 时 ， 对 于 每 个 MPI 进程 都 
会 有 一 个 数据 通道 存在 。 对 于 不 超过 64 字 节 大 小 的 数据 包 ， 数 据 传 输 时 间 几 乎 相等 (独立 
于 使 用 的 MPI 进程 数量 )。 当 数据 块 大 小 等 于 64 字 节 时 ，SCIF (Symmetric Communications 
InterFace， 对 称 通信 接口 ) 实现 将 从 非 DMA 转变 为 DMA (小 数据 量 的 传输 由 CPU 自己 
管理 )。SCIF 为 COI 使 用 的 通信 后 端 。 当 数据 包 增 大 到 16KB 时 ， 一 个 数据 包 就 足以 占 满 
PCIe 的 带宽 ， 所 以 使 用 OpenMP 和 MPI 的 数据 传输 时 间 相 等 。 

注意 ”如 果 主 机 和 协 处 理 器 间 频 繁 进 行 小 量 的 数据 传输 ， 同 时 内 核 的 执行 时 间 和 数据 的 
传输 时 间 在 同一 个 数量 级 上 ,使 用 MPI 进行 并 发 卸载 可 能 会 产生 最 佳 性 能 。 

案例 研究 : 考虑 数据 传输 的 并 发 MKL dgemm Ha 

到 目前 为 止 ， 我 们 还 没有 人 研究 在 内 核 执 行 间 进 行 并 发 数据 传输 对 性 能 的 影响 。 对 此 ， 我 
们 扩展 了 图 12-6 展示 的 MKL dgemm 基准 测试 ， 即 在 印 载 计算 前 后 添加 了 额外 的 数据 传输 
操作 ， 如 图 12-9 所 示 。 和 矩阵 元 素 的 传输 分 别 由 xA, xB 和 xc 控制 。 

当 xA= 1.0，xB = 0.0，xC = 1.0 时 ， 一 个 常数 矩阵 b (如 在 量子 力学 中 操作 数 的 矩阵 表 
示 )， 反 复 作 用 于 和 矩阵 b 后 ,其 计算 结果 和 矩阵 c 返回 主机 端 。 当 xA= 1.0, xB = 1.0, xC = 1.0 
时 ， 所 有 的 问题 就 是 协 处 理 器 和 主机 间 的 数据 传输 了 。 图 12-10 说 明了 当 分别 使 用 OpenMP 
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和 MPI EAT AER EIN ASAE RE. EUME EEA] “compact” RAHLE 


. // See Figure 12.6 
#pragma omp barrier // now start the offload computations 
for(int 1=0;i<numOffloads;i++) { 
start[omp get thread num()]l[i]-get time stamp(); 
#pragma offload target (mic:0) \ 
in(a:length(xA*N«N) alloc if(0) free_if(0))\ // + data transfer 
in(b:length(xB*N*«N) alloc if(0) free _if(0))\ // + data transfer 


out (c:length(xC«N*«N) alloc if(0) free if(0)) // + data transfer 


{ 
cblas dgemm(..); // matrix-matrix multiplication: c = a+b 


stop[omp get thread num()][i]-get time stamp(); 
) 





图 12-9 对 图 12-6 代码 的 扩展 。 现 在 ， 每 个 卸载 计算 被 主机 和 协 处 理 需 间 的 数据 传 
输 包 围 。 进 行 数据 传输 的 数组 大 小 分 别 由 xA、xB 和 XC € [0,1] 决定 


MKL dgemm PERE, 矩阵 规模 2048 x 2048， 每 次 印 载 有 16 个 线程 
OpenMP 主机 MPI 主机 


-- xA=0.0, xB=0.0, xC-0.0 
+ xA=1.0, xB-0.0, xC=1.0 
3 xA-1.0, xB=1.0, xC-1.0 77 


ax 





2 4 6 8 10 12 14 2 4 6 8 10 12 14 
FPA IRB 并 发 卸载 数量 
图 12-10 MKL gdemm 在 Intel Xeon Phi 7120P 协 处 理 器 上 的 性 能 ( 协 处 理 器 在 pCIe x 16 插 
EP) ARA 15 个 并 发 卸载 操作 ， 每 个 和 卸载 操作 在 协 处 理 器 上 有 16 个 OpenMP 
线程 。 该 图 说 明了 在 连续 印 载 操作 间 进 行 数据 传输 时 对 整体 性 能 的 影响 


当 在 主机 端 使 用 OpenMP 时 ， 因 为 每 个 进程 只 有 一 个 数据 传输 通道 ， 所 以 数据 传输 就 
会 串 行 化 。 相 反 ， 如 果 在 主机 端 运行 多 个 MPI 进程 ， 每 个 进程 都 会 有 独立 的 数据 传输 通道 。 
然而 ， 当 和 矩阵 的 规模 超过 32MB 时 ， 一 个 线程 的 数据 传输 就 可 以 占 满 整 个 PCIe 带宽 。 数 据 
传输 的 串 行 化 也 因此 对 整体 性 能 没有 影响 。 更 进一步 讲 ， 这 和 使 用 MPI 几乎 没有 任何 差别 ， 
这 是 因为 进行 数据 传输 的 多 个 数据 通道 共享 PCIe 带宽 ， 所 以 使 用 MPI 进行 并 发 数据 传输 相 
对 于 串 行 传输 没有 性 能 提升 。 

然而 ， 当 在 主机 上 使 用 OpenMP 时 ， 随 着 并 发 印 载 操作 数量 的 增加 ， 我 们 观察 到 数据 
传输 导致 了 一 个 明显 的 性 能 损失 。 对 于 2048 x 2048 的 矩阵 规模 ， 计 算 时 间 (对 于 16 个 线程 
为 380ms， 人 性 能 为 44GFLOPS) 和 数据 传输 时 间 《〈 对 于 三 个 矩阵 为 15ms ， 性 能 为 6.8GB/s) 
之 间 相 差 25 倍 。 这 种 情况 下 ， 应 该 可 以 用 计算 隐藏 总 共 25 个 线程 或 者 进程 的 数据 传输 。 当 
使 用 MPI 时 ， 这 基本 上 是 可 以 实现 的 。 

注意 多 线程 并 发 卸载 操作 需要 面临 COI 内 部 数据 结构 的 竞争 ， 而 当 使 用 MPI 时 ， 这 
个 数据 结构 会 复制 多 份 。 因 为 对 于 这 些 内 部 数据 结构 的 竞争 没有 更 好 的 解决 办 法 ， 所 以 在 和 
Intel Xeon Phi 协 处 理 器 进行 数据 交换 时 ， 或 者 只 使 用 中 等 数量 的 并 发 卸载 线程 ， 或 者 转变 
为 MPI 或 者 MPI+OpenMP 混合 模式 ， 这 样 应 该 是 最 好 的 。 
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现在 ， 我 们 回 到 PD 例子 上 来 ， 这 个 例子 一 开始 就 是 为 了 说 明 在 协 处 理 器 上 并 发 印 载 内 
核 而 设立 的 。 请 记 住 一 点 : rr 有 但 发 现 随 线程 数量 增多 关于 
作用 力 计算 的 实现 的 可 扩展 性 并 不 好 。 接 下 来 ,我 们 将 描述 评估 作用 力 的 并 行 算法 ， 并 且 对 
使 用 C++ 和 Intel LEO 实现 的 部 分 进行 详细 描述 。 


12.3.1 使 用 牛顿 第 三 定律 并 行 评估 作用 力 


根据 牛顿 第 三 定律 : Fy= -F;， 其 中 ，F; 是 粒子 i 对 粒子 j 产 生 的 作用 力 。 利 用 这 种 对 
称 性 ， 当 对 于 N 个 粒子 评估 每 个 粒子 所 受 的 总 作用 力 (= Y, E) 时 ， 可 以 减少 两 倍 的 计 
算 量 : 我 们 需要 计算 CE T, A), REAME B= -Fy 对 总 作用 力 的 贡献 。 为 简单 起 见 ， dE 
们 直接 评估 作用 力 Fi,， 这 将 导致 一 个 复杂 度 为 O(N?) 的 算法 。 此 外 ， 我 们 认为 粒子 间 的 作 

F; 只 依赖 于 粒子 间 的 空间 距离 xi = |xi-xj| 以 及 它们 的 电量 q qus dn: 


6 
,= Mi aj 和 (x, -x;) 
x \ x) x, 


通过 兰 纳 — SA AEE EARS. (IL Thijssen, 2013 ) 。 

SR O(N’) 算法 在 协 处 理 器 上 并 行 实现 困难 的 原因 是 什么 ? 第 一 ， 因 为 协 处 理 器 上 的 
“线程 要 求 ”( 见 Jeffers and Reinders, 2013 )， 即 每 个 物理 内 核 至 少 要 实例 化 两 个 硬件 线程 ; 
第 二 ， 利 用 对 称 性 计算 作用 力 必须 是 线程 安全 的 ， 这 对 数 百 个 线程 来 说 是 一 件 非常 不 容易 的 
事情 。 

线程 安全 要 求 是 因为 作用 力 F; 会 并 行 接收 来 自 于 不 同 线程 的 作用 力 分 量 Fjo WX 
问题 一 个 显而易见 的 方法 是 对 P 个 线程 中 的 每 个 线程 都 分 配 一 个 额外 的 缓冲 区 来 存储 作用 力 
分 量 ;= -Fj;， 随 后 累计 这 些 缓 冲 区 到 Fi 中。 然而 ， 内 存 消 耗 会 随 线程 数目 的 增多 以 复 困 
度 O(P-N ) 的 速度 “ 剧 增 ”"。 一 个 空间 复杂 度 为 O(N ) 的 更 好 方法 为 : 

并 行 算法 (AHA): (0a) 创建 两 个 长 度 为 N 的 缓冲 区 : FMF, HREF= 0, F* 
= 0, (0b) 使 用 P 个 线程 进行 作用 力 Fi 的 计算 。 现 在 执行 如 下 迭代 ， 设 的 初始 值 为 0: 

(1) 线程 p € [0, P-1] 执行 如 下 计算 : 


for i in “my i-values" do 
for j = mod(p + k, P) to i — 1 increment by P do 
f = "compute E ur» F[i] = F[i] + f, F*[j] -F*[j] ^f 
end for 
end for 


(2) RH k= k, WR kSET P, WARK, M: F= P+ F* 并 退出 ; 否则 ， 同 
步 线程 并 继续 执行 步骤 1). 

步骤 (1) 会 执行 P 次 。 在 每 次 迭代 中 ， 线程 通 过 计算 作用 力 分 量 Fi 访问 缓冲 区 环 的 
第 7 个 元 素 , 7 的 初始 值 为 0， 间 隔 为 忆 。 所 有 线程 的 操作 都 是 唯一 的 一 一 见 第 二 层 循环 中 的 
mod (p+k,P )。 在 连续 迭代 间 添 加 线程 同步 ， 空 间 复杂 度 为 O(N) 的 线程 安全 就 实现 了 。 

图 12-2 说 明了 当 在 Intel Xeon Phi 协 处 理 絮 上 开启 240 个 OpenMP 线程 计算 16000 个 
粒子 时 ， 该 算法 的 性 能 (使 用 了 基于 SIMD 优化 的 代码 库 )。 该 算法 的 可 扩展 性 只 支持 至 多 
30 个 线程 。 
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并 行 算法 (HER): 和 上 一 个 算法 只 使 用 一 个 大 小 为 P 的 线程 组 不 同 ,我 们 使 用 m 个 大 小 
为 P' = Pim 的 线程 组 。 现 在 这 些 线程 都 有 一 个 组 标识 符 : g' € [0, m-1]、 一 个 组 内 标识 符 [0, 
Pi-1] 、 一 个 全 局 线程 标识 符 : gm + p'。 全 局 线程 标识 符 用 于 在 所 有 PP 个 线程 中 设置 i 的 值 。 

通过 (Oa) + 每 个 线程 组 分 配 两 个 缓冲 区 : F' 和 Fi; (0b) + 将 它们 初始 化 为 0， 我 们 在 
线程 组 内 部 使 用 非 并 发 算法 (初始 化 为 0 ): 

(1) + 在 步骤 (1) PHAM FRR: 了 一 有 P— P, F—F,F*—F', 

(2)1 设 置 k= k+l1 : 如 果 大 等 于 于， 则 合并 缓冲 区 ， 即 灵 = 严 + 天 退出 ; 否则 , 在 
线程 组 内 进行 线程 同步 ， 然 后 继续 执行 步骤 CY) t 

在 并 发 情况 下 的 和 迭代 次 数 为 Pi < 已 ， 在 每 个 线程 组 内 进行 同步 的 线程 数目 也 减少 到 P". 
为 了 得 到 作用 力 Fi 的 最 终 值 ， 有 必要 进行 步骤 (3) 以 累加 所 有 m 个 线程 组 的 作用 力 。 

图 12-11 说 明了 主机 端 使 用 8 个 线程 进行 并 发 卸载 操作 时 的 并 行 算法 。 注 意 ， 步 骤 
(0a) + 没有 在 图 中 显示 。 步 又 (0b) ', C1) 7 和 (2) 在 协 处 理 器 上 执行 ,每 次 印 载 操作 ， 
协 处 理 器 开启 了 30 个 线程 。 为 了 区 分 缓冲 区 F 和 Fi， 我们 引入 了 下 标 “(g' + 1) 4 HF 
线程 和 外 载 操作 的 相关 元 素 ， 我 们 使 用 OpenMP 和 LEO 编译 制导 指令 。 在 步骤 (3) 1 之 前 ， 
所 有 主机 线程 都 进行 了 同步 ， 并 将 任务 外 载 到 协 处 理 器 上 进行 作用 力 的 计算 。 


#pragma omp parallel num threads(8) 


t #pragma offload target (mic:0) 


1 1 

! Step (0b)! — Fl1)=0, FL)=0 ! Step (0b)! — Fig)=0, Fls)=0 ! 
| *pragma omp parallel\ | *pragma omp parallel\ 
num threads(30) num threads(30) num threads(30) | 


he Step (1) *—4 A Step (一 一 Step (0 一 一 


+ #pragma omp\ + #pragma omp\ ... + #pragma omp\ 
Step (2) barrier Step (2) barrier Step (2) barrier 


Xeon Phi Coprocessor 





#pragma omp barrier 
#pragma offload target(mic:0) 


1 1 
#pragma omp parallel i #pragma omp parallel\ i #pragma omp parallel\ 


| num threads(30) num threads(30) ^. | num threads(30) 
Participate in step (3)' Participate in step (3)! Participate in step (3)' 


Xeon Phi 





we) 


图 12-11 EER AIH AM RHEE S81 4] Intel Xeon Phi 协 处 理 器 上 的 结构 图 : 8 个 主机 线程 
分 别 将 1/8 的 任务 卸载 到 协 处 理 器 上 ， 每 次 印 载 操作 开启 30 个 线程 来 处 理子 任务 


12.3.2 ”实现 作用 力 并 发 计算 


现在 我 们 开始 进行 使 用 并 发 印 载 的 作用 力 并 行 计算 算法 的 实现 〈 全 部 源 代 码 ， 包 括 使 用 
循环 展开 和 分 块 等 SIMD 优化 的 代码 ， 可 以 从 http : //lotsofcores.com 下 载 )。 在 真正 进入 实 
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现 细 市 之 前 ， Rim RHH- ANER Az aR SE AGUS IK, xx TRE TETT STE RH 2I DEZ 
RE (3) 有 好 处 。 

注意 : 使 用 OpenMP 时 ， 在 并 发 卸载 间 共 享 协 处 理 器 数据 

同一 个 主机 进程 的 印 载 计算 也 共享 相对 应 的 协 处 理 需 端 进 程 。 所 以 ， 任 何 主 机 线程 在 执 
行 过 程 中 分 配 的 内 存 都 可 以 被 属于 同一 个 进程 上 下 文 的 其 他 主机 线程 使 用 ， 只 要 相关 主机 指 
针 在 这 些 线程 之 间 共 享 。 

下 面 说 明了 当 有 8 个 并 发 卸载 操作 时 ,使 用 共享 内 存 以 数组 索引 值 填 充 指 针 ptr 指向 
数组 的 元 素 。 这 种 方法 之 之 所 以 能 够 正确 运行 ， 是 因为 当 印 载 任务 到 Intel Xeon Phi 协 处 理 
器 上 时 ，Intel 的 LEO 和 OpenMP 4.0 都 使 用 了 COI, m CODI 将 会 以 上 文 描 述 的 方式 工作 ， 
并 且 不 太 可 能 在 这 一 方面 进行 改变 。 

int «ptr- mm malloc(512«sizeof (double) ,64) ; 

gp monte eme cogere Haec rei iin free if(0)) 

bem omp parallel num threads(8) // 8 threads on host 


int id-omp get thread num(í); 
#pragma offload target (mic:0)\ 
in(ptr:length(0) alloc if(0) free if(0)) // + shared memory 


for(int i=id; i<512; i+=8) 
ptrí[i]-i; // concurrent offloads can use the shared memory pointed to by ptr 


) 


#pragma offload transfer target (mic:0)\ 
out(ptr:length(512) alloc if(0) free if(1)) 
// the content of the memory pointed to by ptr now is: 0123 .. 511 


作用 力 计 算是 PD 模拟 的 核心 部 分 ， 其 基本 功能 使 用 C++ 语言 在 类 pd 中 实现 。 图 12-12 
展示 了 该 类 的 声明 。 常 量 CONCURRENT OFFLOADS 和 THREADS PER OFFLOAD 分 别 定 


义 了 并 发 卸载 操作 的 数目 m 以 及 每 次 印 载 操作 使 用 的 线程 数量 p'o 


#define ALLOC align(64) alloc if(1) free if(0) 
#define REUSE alloc if(0) free if(0) 
#define FREE alloc if(0) free if(1) 


define CONCURRENT OFFLOADS (8)  // corresponds to m 
#define THREADS PER OFFLOAD (30) // corresponds to P' 


// Class pd: provides the basic functionality for a PD simulation. 
class pd{ 
public: 
pd (double «position,double *charge,..,int numParticles); 
~pd(); 
void computeForce(); 
.. // see source code downloadable from http: //lotsofcores.com. 
private: 
int numParticles,deviceId-0; 
double *position, «charge, *force_i, *force_j[CONCURRENT_OFFLOADS] ; 





图 12-12 C+ 中 pa 类 的 声明 ， 只 列 出 了 相关 部 分 


构造 函数 ( 见 图 12-13 ): 在 主机 和 协 处 理 器 上 分 配 描述 粒子 position 和 charge 的 内 存 以 
及 用 于 作用 力 计 算 的 缓冲 区 force i fl force j[0.. (CONCURRENT OFFLOADS-1) ] 
(对 应 于 每 个 线程 组 的 缓冲 区 : Fi 和 严 ")。 在 外 载 区 域 用 到 的 属性 不 得 不 存放 在 构造 冰 数 的 
栈 中 。 如 果 不 这 样 做 ， 例 如 ， 对 于 属性 position， 编译 需 将 会 把 每 个 出 现 的 Position 
都 编译 进 this->position 中 ,这 在 协 处 理 器 上 是 无 效 的 ， 因 为 这 样 的 pd 对象 根 本 就 不 
存在 。 这 样 ， 当 在 协 处 理 器 上 访问 这 个 指针 时 ， 将 会 导致 段 错误 。 为 解决 这 个 问题 ， 创 建 了 


HA PA EPH 169 


VURVMERU— AMAL, MPHIL, UBT MPS TE ASE Oeo hz fX 4e 


// Constructor: particle positions have format (xi,..., xw), (yr... yu); (Z1;--- zw). Factor “3.” 
pd::pd(double *position,double xcharge,..,int numParticles) { 
int sizeBytes-numParticles*sizeof (double); 
this—>numParticles=numParticles; 
this—>positon=_mm_malloc(3*sizeBytes, 64) ; 
this—>charge=_mm_malloc(sizeBytes, 64) ; 
memcpy (this—>positon, positon, 3*sizeBytes) ; 
memcpy (this—>charge, charge, sizeBytes) ; 
// create buffers force_i and force_j[] 
this->force_i=_mm_malloc(3*sizeBytes*CONCURRENT_OFFLOADS, 64) ; 
for(int c=0; c<CONCURRENT_OFFLOADS; c++) 
this-»force j[c]-» mm malloc(3x*sizeBytes, 64); 
// allocate and set up position, charge, force i and force j[] on the coprocessor 
double *pos-this-»position,*chg-this-»charge,xf i-this-»force i; 
#pragma offload transfer target (mic:deviceld) \ 
in(pos:length(3*xnumParticles) ALLOC) \ 
in(chg:length(numParticles) ALLOC) \ 
nocopy (f_i: length (3*numParticles*CONCURRENT_OFFLOADS) ALLOC) 
#pragma omp parallel num_threads (CONCURRENT_OFFLOADS) 
{ 
double «f j-this-»force j[omp get thread num()]; 
#pragma omp critical 
{ 


#pragma offload target (mic:devicelId) \ 
nocopy (f_j:length(3*numParticles) ALLOC) 


#pragma omp parallel num_threads (THREADS PER OFFLOAD) 
{ 


; // just create threads 





图 12-13 pd 类 的 构造 函数 。 属 性 force-i Ml force jl] 需要 在 构造 函数 栈 中 转化 
为 本 地 变量 。 为 什么 这 是 必需 的 呢 ? force-j 实际 上 映射 this->force_ 
i， 但 这 个 变量 在 协 处 理 器 上 是 无 效 的， 因为 这 样 的 pa 对 象 本 就 不 存在 。 在 
协 处 理 器 上 访问 this->force_i 将 会 导致 段 错 误 

force i 指向 一 块 大 小 为 CONCURRENT OFFLOADS : N WAF, Ata SPA AH 
载 操 作 的 作用 力 计算 : 瓦 = 之 JF, (EUR TEA ON N 的 相互 不 相交 的 子 数组 )。 相 反 ， 
force j[] 包含 了 "CONCURRENT OFFLOADS" 个 指针 ， 每 个 指针 指 癌 一 块 大 小 为 “N” 
的 内 存 区 域 。force_j[] 是 分 布 计 算 EF; =F, 时 每 次 秃 载 操作 的 私有 变量 ; 而 force i 
是 在 作用 力 归 约 步 台 中 用 于 所 有 并 发 印 载 操作 的 共享 内 存 。 所 以 我 们 希望 它 是 连续 的 。 

接 下 来 ,依据 在 12.2.1 节 的 描述 ， 在 协 处 理 器 上 创建 了 所 有 OpenMP 线程 。 设 置 MIC_ 
KMP_RFFINITY=compact， 以 使 在 相同 外 载 区 域 的 所 有 线程 都 映射 到 协 处理 器 上 连续 的 
逻辑 内 核 中 。 

析 构 函数 ( 见 图 12-14): 指针 类 型 的 “属性 ”都 存放 在 析 构 函数 的 栈 上 ， 相 对 应 的 内 存 
区 域 按照 先 协 处 理 占 后 主机 的 顺序 释放 。 

方法 computeForce() (WA 12-15) : 主机 端的 作用 力 计 算 。 再 一 次 强调 ， 所 有 相关 
属性 都 存放 在 函数 的 栈 上 以 便 在 钊 载 区 域 访 问 它 们 。 在 这 个 函数 中 ， 创 建 了 CONCURRENT _ 
OFFLOADS 个 主机 线程 ， 每 次 印 载 操作 首先 将 作用 力 计 算 函 数 _computeForce () Hla 
到 协 处 理 器 上 ， 然 后 是 作用 力 累 加 函数 — accumulateForce () 。 两 次 件 载 操作 在 主机 端 
被 栅栏 同步 操作 分 开 。 
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// Destructor: release coprocessor and host memory 
pd::~pd() { 
double *pos-this-»position,x*chg-this-»charge,*f i-this-»force i; 
#pragma offload target (mic:deviceId)^ 
in(pos,chg,f i:length(0) FREE) 


; // justrelease memory 


} 
_mm_free (this—>position) ; 
_mm free (this—>charge) ; 
_mm_free (this—>force_i); 
for(int c=0; c«CONCURRENT OFFLOADS; c++) { 
double xf j-this-»force j[c]; 
#pragma offload target (mic:deviceId)^ 
in(f j:length(0) FREE) 
{ 
; // just release memory 


.mm free(this-»force j[c]); 
) 
} 





图 12-14 pd 2S HP pk RY 


// Concurrent force computation: host part of the force computation. 
void pd::computeForce () { 
int n=this—>numParticles; 
double *pos=this-—>position, *«chg=this-—>charge, *«f_i=this-—>force_i; 
#pragma omp parallel num threads (CONCURRENT OFFLOADS) 
{ 


int offloadId-omp get thread num(); 

double «xf j-this-»force j[offloadId]; 

#pragma offload target (mic:deviceId)^ 
in(pos,chg,f i,f j:length(0) REUSE) 


{ 
. computeForce(pos,chg,&f i[3*n*offloadId],f j,n,offloadId); 
} 
#pragma omp barrier 
#pragma offload target (mic:deviceld) \ 


in(f i:length(0) REUSE) 
{ 


. accumulateForce(f i,n,offloadId); 





图 12-15 在 主机 端 实现 并 发 作用 力 计算 的 pa 方法 


每 个 主机 线程 都 有 本 地 指针 pos 和 chg, Salt le] AL HY position Al charge, f_i All 
fj 指向 的 缓存 (用 于 作用 力 计算 ) TEX __computeForce() 的 输入 。 然 后 ， 粒 子 数目 n 
和 主机 线程 标识 符 Offloadid 传人 到 计算 内 核 中 。 对 于 作用 力 累 加 ， 只 有 变量 fi, Bor X 
H n 以 及 主机 线程 标识 符 offloadId 是 必需 的 。 值 得 注意 的 是 ， 对 于 作用 力 累加 ， 所 有 在 不 
同 缉 载 操 作 中 进行 分 布 计 算 的 作用 力 可 通过 f£_i 访问 (共享 内 存 )。accumulateForce () 
的 实现 在 http://lotsofcores.com 可 看 到 。 

计算 内 核 ， computeForce() ( 见 图 12-16): 作用 力 计 算 的 并 行 算法 实现 (在 一 个 线 
程 组 内 )。 不 同 的 步 又 (00) GYA (2) 在 源 代码 中 高 亮 显示 。 主 机 线程 标识 符 offloadId 
和 内 核 内 部 的 线程 标识 符 (通过 omp_get_thread_num() 获得 ) 共同 定义 了 在 所 有 并 发 匈 
载 操作 中 的 全 局 线程 标识 符 id。 线 程 标识 符 id 接着 用 于 实现 作用 力 计算 (五 = E.) 在 
所 有 线程 中 i 值 的 平均 分 配 。 关 于 力 大 小 的 评估 实现 包含 在 函数 f£_ij O0 中 。 

类 pd (图 12-12 ) 的 其 他 函数 : 通过 PD 模拟 更 新 位 置 和 速度 ,或 者 进行 计算 测量 之 类 
的 内 容 ， 在 这 里 并 没有 列 出 〈 见 图 12-12 中 的 “..”)。 这 是 因为 讨论 它们 对 于 理解 的 并 发 缉 
载 操作 没有 帮助 。 然 而 ， 这些 函数 的 实现 代码 都 可 以 在 http : //lotsofcores.com FR (结合 


HA A Beg 站 


SIMD 优化 的 代码 ， 用 于 基准 测试 )。 


// Compute kernel: implements O(N?) force computation using Newton's 3rd law. 
. attribute  ((target(mic))) void , computeForce(const double *pos, 
double *chg,double +*f_i,double *f_j,int n,int offloadId)(|( 
memset (f_i,0,3*n*sizeof(double)); // step (Ob)' of algorithm above 
memset (f_j,0,3*n*sizeof (double)); // step (0b)! of algorithm above 
double xpos x-&pos[O0*n],*pos. y-&pos[1*n],*pos. z-&pos[2*n]; 
double «f i x-&f i[0*«n],*f i y-&f i[1*n],*f i z-&f i[2*n]; 
double xf j x-&f j[0*n],*f j y-&f j[1»n],*f j z-&f j[2*n]; 
#pragma omp parallel num threads (THREADS PER OFFLOAD) 
{ 


int id-offloadId*THREADS PER OFFLOAD-«*omp get thread num(); 
double r ij x,r ij y,r lj Zf? 
for(int k=0;k<THREADS PER OFFLOAD; k++) { 
int jStart-(k*omp get thread num())$THREADS PER OFFLOAD; 
int jIncrement-THREADS, PER, OFFLOAD; 
// Step (1) of algorithm above: distribute i-values evenly among threads 
for(int i=id; i<n; i+=CONCURRENT_OFFLOADS*THREADS PER OFFLOAD) { 
int jStop-i; 
for(int j=jStart; j«jStop; jt-jIncrement) ( // disjount j-values 
r ij x-pos x[i]-pos x[jl; 
r ij y-pos y[i]—pos. y[j]; 
r ij z-pos z[i]l—-pos. z[j]; 
f-f ij(r ij x,r ij y,r ij z,chg,..); // magnitude of force 
[i]*-fxr ij x; f j x[j]—--f»r ij x; // Newton's 


f d sx 
f i y[i]t-f«r ij y; f£ j yljl--f*»r ij y; // 3rdlaw 
f ài z[i]*t-f«r ij 2; f£ j z[jl—-fsr ij .z; // Ej;--—Fj 


) 

} 

#tpragma omp barrier // step (2)' of algorihm above: else-clause 
} 
// step (2) of algorihm above: if-clause — accumulate forces £ i and £_j into f£ i 
int chunkSize=(int)ceil( (double) (n)/THREADS PER _OFFLOAD) ; 
int start=omp_get_thread_num()*chunkSize; 
int stop=start+chunkSize; stop=(stop<n?stop:n); 
for(int i=start;i<stop;it++) { 

Ll is an eS ce (wa 

LA (Lita tily 

f ài z[1]tef JT z[(il; 





图 12-16 根据 牛顿 第 三 定律 实现 作用 力 计算 的 内 核 


12.3.3 性 能 评估 : 之 前 与 之 后 

针对 作用 力 计算 算法 使 用 单 和 卸载 操作 时 非常 不 好 的 可 扩展 性 ， 本 章 开始 说 明了 本 章 的 
EB: 并 发 内 核 外 载 。 现 在 ， 我 们 使 用 多 个 并 发 卸载 操作 ， 每 个 件 载 操作 在 协 处 理 器 上 开启 
30 个 线程 。 

图 12-17 说 明了 同 单 番 载 操 作 相 比 ， 使 用 不 同 数量 的 并 发 印 载 操作 所 带 来 的 性 能 提升 。 

注意 在 所 有 情况 下 ， 我 们 比较 了 底层 PD 模拟 的 结果 ， 发 现 1000 PD 更 新 步骤 的 结果 
几乎 完全 一 致 。 这 里 要 注意 的 是 ， 因 为 不 同 的 求 和 顺序 以 及 浮上 点数 操作 的 不 可 结合 性 ， 结 果 
完全 一 致 是 不 太 可 能 实现 的 。 

这 里 的 性 能 指标 是 每 秒 发 生 的 粒子 间 交 互 的 次 数 (单位 为 10")， 简 写 为 “GigaInterations/s” 
( 越 大 越 好 )。 

对 于 不 同 数 目的 交互 粒子 ， 并 发 印 载 方法 都 要 优 于 非 并 发 外 载 方法 。 随 线程 组 (也 就 是 
线程 ) 的 增多 ， 其 性 能 几乎 实现 了 线性 加 速 比 。 对 于 64000 个 粒子 ， 相 对 于 非 并 发 的 情况 ， 
实现 了 1.25 倍 的 加 速 比 。 这 个 性 能 结果 也 支持 了 我 们 利用 对 称 性 进行 作用 力 计 算 和 并 发 外 
载 操 作 的 最 初 动机 。 我 们 证 明了 在 解决 同一 个 问题 时 ， 多 个 小 规模 全 载 计 算 的 性 能 可 以 优 于 
一 个 大 规模 伯 载 计算 的 性 能 。 
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利用 牛顿 第 三 定律 进行 作用 力 计 算 + 更 新 
16x 10 个 粒子 32 x 10 个 粒子 64x 10: 个 粒子 


-类 -牛顿 第 三 定律 
-x -牛顿 第 三 定律 并 发 


Gigalnteractions/s 





60 120 180 240 60 120 180 240 60 120 180 240 
Xeon Phi 上 的 线程 数 Xeon Phi 上 的 线程 数 Xeon Phi 上 的 线程 数 


图 12-17 利用 牛顿 第 三 定律 进行 作用 力 计 算 时 在 并 发 和 非 并 发 情况 下 PD 模拟 的 性 能 。 像 
非 并 发 情况 一 样 ， 在 并 发 情况 下 ， 总 共有 8 个 主机 线程 将 相同 的 作用 力 计算 内 核 
锦 载 到 协 处 理 器 上 。 所 不 同 的 是 ， 并 发 情况 下 每 次 印 载 操作 开局 了 30 个 协 处 理 需 
线程 : 对 于 “120 个 线程 ”的 数据 点 ，4 个 主机 线程 并 发 邱 载 到 协 处 理 占 上 。1000 
个 PD 更 新 步骤 的 印 载 计算 都 是 在 Intel Xeon Phi 协 处 理 需 上 进行 的 


[s] CPU 性 能 的 对 比 : 我 们 利用 牛顿 第 三 定律 (以 及 并 发 秃 载 操作 ) 实现 作用 力 计 算 的 
机 制 ， 并 不 只 是 针对 协 处 理 需 (除了 外 载 的 制导 指令 )。 因 此 ， 同 一 份 代码 在 没有 协 处 理 的 
情况 下 也 可 以 在 标准 CPU 上 执行 。 

对 于 CPU 基准 测试 ， 本 章 开 始 时 就 描述 了 计算 节点 的 构成 。 这 个 计算 系统 的 两 个 CPU 
插 槽 跨 过 两 个 不 同 的 NUMA 域 ， 这 两 个 域 通过 Intel QPI ( Quick Path Inerconnect) 相连 。 通 过 
QPI 的 通信 (例如 ， 同 步 操作 ) 是 可 能 降低 应 用 程序 性 能 的 。 使 用 两 个 并 发 的 线程 组 (每 个 线 
程 组 包含 16 个 线程 )， 每 个 线程 组 部 署 到 一 个 CPU 插 权 上 ， 可 能 提升 整个 应 用 程序 的 性 能 。 

图 12-18 比较 了 在 Intel Xeon Phi 7120P 协 处 理 和 主机 ( 双 CPU W) 上 执行 相同 代码 
时 的 性 能 ， 与 在 两 个 CPU 上 统一 部 署 32 个 线程 的 非 并 发 执行 相 比 ， 在 每 个 CPU ERER 
小 为 16 的 线程 组 ， 两 个 CPU 并 发 执行 在 16000 个 粒子 的 情况 下 ， 实 现 了 1.5 倍 的 性 能 提 
jt; 在 64000 个 粒子 的 情况 下 ， 实 现 了 1.2 倍 的 性 能 提升 。 在 协 处 理 硕 上 ， 相 对 于 CPU 并 
发 情况 ， 最 高 可 以 实现 2.3 倍 的 性 能 提升 。 


作用 力 计算 + 更 新 , Xeon Phi 7120P 与 双 捅 槽 sandy bridge 
16x 103 个 粒子 32 x 1 人 8 个 粒子 64x 103 个 粒子 
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图 12-18 利用 牛顿 第 三 定律 进行 作用 力 计算 时 在 并 发 和 非 并 发 情况 下 PD 模拟 的 性 能 。 各 个 分 图 
所 要 表达 的 意思 和 图 12-17 一 样 。 同 时 ， 增 加 了 与 同 双 插 槽 Intel Xeon AbF a ( Sandy 
Bridge) 的 性 能 对 比 ， 总 共 开 启 了 32 个 线程 。 水 平 虚线 是 非 并 发 情况 下 的 性 能 ， 水 平 
实 线 是 在 每 个 CPU 插 槽 上 分 别 部 署 两 组 线程 〈 每 组 包含 16 个 线程 ) 时 的 性 能 
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通过 使 用 内 核 并 发 执行 方法 提升 应 用 程序 性 能 ， 这 里 的 PD 示例 证 明了 这 个 观点 : 运行 
在 协 处 理 器 上 的 优化 代码 ， 当 返回 CPU 端 运 行 时 ， 也 可 带 来 性 能 提升 。 


12.4 总结 
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能 是 一 个 提升 总 体 性 能 的 方法 。 

当 从 主机 并 发 印 载 多 个 内 核 时 ， 下 面 的 方法 可 提升 内 核 在 协 处 理 器 上 的 性 能 : 

线程 关联 (参见 12.2.1 节 ) : OpenMP 线程 组 以 及 线程 与 设备 的 关联 在 程序 运行 期 间 保 
持 不 变 ， 除 非 并 行 区 域 的 “形状 ”发 生变 化 。 

e 当 在 主机 使 用 OpenMP 进行 印 载 操作 时 ， 需 要 在 计算 真正 开始 之 前 执行 一 个 初始 互 
斥 的 印 载 操作 并 且 在 协 处 理 器 上 创建 线程 。 在 这 种 方式 下 ， 线 程 在 印 载 区 域内 的 分 
布 取决 于 参数 MIC KMP AFFINITY 和 MIC OMP PLACES 值 的 设 定 。 
当 在 主机 程序 使 用 MPI 进行 卸载 操作 时 ， 需 要 在 协 处 理 上 显 式 指 定 线程 分 布 。 例 如 ， 
通过 使 用 函数 sched setaffinity () 或 者 设 定 MIC KMP PLACE THREADS 对 
协 处 理 器 进行 恰当 的 逻辑 划分 。 在 设备 划分 内 部 ， 分 配给 MIC KMP AFFINITY 和 
MIC OMP PLACES 的 参数 是 有 效 的 。 
数据 传输 (0L 12.2.2 节 ) : 当前 COI 的 实现 为 线程 提供 了 主机 和 协 处 理 间 的 专门 通信 
通道 ( 印 载 模式 下 的 内 核 调用 )， 但 只 能 使 用 一 条 数据 传输 通道 。 
当 在 主机 应 用 程序 中 使 用 OpenMP 时 ， 因 为 只 有 一 条 数据 通道 ， 并 发 数据 传输 会 串 
行 化 。 除 此 之 外 ， 还 会 对 COI 的 内 部 数据 结构 产生 竞争 。 当 数据 包 非 常 小 时 ， 对 性 
能 的 影响 就 会 非常 明显 。 
当 在 主机 上 使 用 MPI 时 ， 每 个 MPI 进程 都 会 有 自己 的 数据 通道 。 除 非 应 用 程序 使 用 
MPI+OpenMP 混合 编程 ， 否 则 不 会 存在 竞争 。 

e 如 果 出 现 短 消 息 的 频繁 传输 ， 最 好 使 用 少量 的 .OpenMP 线程 ， 或 者 转 为 MPI， 或 者 

转 为 MPI+OpenMP 的 混合 模式 。 

我 们 在 两 个 实际 用 例 中 使 用 并 发 印 载 操作 : MKL dgemm 计算 和 PD 模拟 。 

对 于 dgemm (参见 12.2.1 WA 12.2.2 35), 我们 得 出 : 只 要 不 超过 协 处 理 需 能 够 处 理 的 
线程 数目 ， 协 处 理 器 的 整体 计算 性 能 会 随 着 并 发 印 载 数目 的 增加 而 线性 提高 。 当 在 主机 上 
使 用 OpenMP 时 ， 连 续 dgemm 内 核 和 卸载 间 发 生 的 数据 传输 会 降低 程序 性 能 。 然 而 ， 当 使 用 
MPI 时 ， 与 没有 数据 传输 相 比 ， 几 乎 没有 性 能 损失 。 对 于 执行 多 次 类 dgemm 操作 的 应 用 程 
F, 程序 员 可 参考 这 里 的 MKL 示例 ， 研 究 如 何以 一 种 简单 的 方式 为 多 个 小 规模 或 者 中 等 规 
FA RIFE RERI AI HME FERE o 

PD 示例 展示 了 如 何 将 MKL 应 用 到 更 加 复杂 的 应 用 中 ， 以 及 如 何 避 免 并 发 印 载 操作 一 
些 不 好 的 特性 。 代 码 中 使 用 的 内 核 并 发 鲫 载 的 方式 初 看 起 来 有 些 奇怪 ， 但 经 过 一 小 段 时 间 的 
思考 就 会 明白 : 我 们 将 计算 根据 线程 数目 尸 进行 划分 ， 并 划分 成 严 个 并 发 卸载 操作 ， 每 次 
钙 载 操作 有 Pim 个 线程 。 每 次 并 发 钙 载 操作 中 ， 相 关 线 程 处 理 了 总 计算 量 的 1/m。 随 后 , 合 
并 所 有 逢 载 操 作 的 计算 结果 。 因 为 随 线程 数目 增多 时 PD 计算 内 核 的 可 扩展 性 不 好 ， 所 以 只 
有 符合 协 处 理 的 线程 需求 ， 并 发 方法 才能 帮助 提升 程序 的 整体 性 能 。 如 果 有 8 个 并 发 卸载 操 
作 ， 每 个 印 载 操作 开启 了 30 个 线程 ， 相 对 于 只 开启 一 次 印 载 操作 (H 240 个 线程 )， 可 以 获 
得 25% 的 性 能 提升 。 
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对 于 同 PD 示例 类 似 并 且 可 扩展 性 并 不 好 的 应 用 程序 ， 可 以 使 用 本 章 摘 述 的 方法 来 提升 
整体 性 能 。 例 如 ， 一 篇 关于 并 发 内 核 执行 的 论文 将 并 发 内 核 外 载 操作 整合 进 热力 学 模拟 代码 
( 见 Wende et al., 2014 ) 。 
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| 13 3E 


High Performance Parallelism Pearls: Multicore and Many-core Programming Approaches 


MPI 和 异 构 计算 





Jerome Vienne, Carlos Rosales, Kent Milfeld 
USA, TACC 


13.1 现代 集群 中 的 MPI 


对 于 许多 用 户 来 说 ，MPI (Message Passing Interface) 是 一 个 在 “MPI 任务 ” 间 传 递 数 
据 的 “ 黑 盒 ” 。 对 于 程序 开发 者 来 说 ，MPI 的 美妙 之 处 在 于 算法 代码 同 底层 硬件 无 关 。 然 而 ， 
在 过 去 几 十 年 里 ， 相 对 于 MPI 标准 诞生 的 1993 年 ， 硬 件 架 构 已 经 成 为 分 层 架 构 并 且 更 加 
复杂 。 

图 13-1 展示 了 一 个 MPI-1 标准 时 期 的 典型 计算 系统 。 每 个 计算 节点 只 包含 一 个 处 理 带 ， 
连接 到 一 个 NIC ( Network Interface Card， 网 
F), EA NIC 连接 到 交换 机 上 的 一 个 端口 。 
系统 中 各 计算 节点 的 连接 都 是 统一 的 ， 应 用 程 
序 任务 在 计算 系统 中 所 处 的 位 置 对 通信 性 能 没 
有 影响 。 

图 13-2 展示 了 MPI-3 时 代 异 构 高 性 能 计 
算 系统 的 典型 配置 。 每 个 节点 有 多 个 处 理 器 。 
每 个 节点 通过 分 层 交 换 机 (这 里 是 “ 胖 树 ” 拓 
th) 连接 。 在 节点 内 部 ， 每 个 处 理 器 有 多 个 内 
核 和 一 个 采用 众 核 架构 的 Intel Xeon Phi 协 处 
理 〈 或 者 GPU)。 同 处 理 需 一 样 ， 协 处 理 器 通过 PCI-e 总 线 连接 到 NIC (实际 是 上 一 个 主机 
通道 适 配 需 (Host Channel Adapter, HCA)). 

计算 节点 配备 众 核 协 处理 器 引起 了 应 用 程序 开发 者 和 用 户 的 关注 。 通 常情 况 下 ， 一 个 
协 处 理 器 包含 60 多 个 内 核 ， 多 个 处 理 器 包含 10 ~ 40 个 内 核 。 如 果 在 每 个 内 核 上 运行 一 个 
MPI 任务 将 会 在 节点 内 部 和 节点 间 (通过 NIC) 导致 通信 风暴 。 同 图 13-1 描述 的 单 处 理 器 节 
点 、MPI 单 任务 执行 相 比 ， 现 代 计 算 节 点 的 通信 通道 数量 多 了 两 个 数量 级 以 上 。 

为 了 降低 通信 开销 ， 应 用 程序 通常 采用 混合 技术 : 利用 计算 的 对 称 模式 ， 采 用 
MPI+OpenMP 的 混合 编程 模式 (MPI 进程 既 可 以 在 处 理 器 执行 ， 也 可 以 在 协 处 理 器 上 执行 )。 
当 应 用 程序 的 特征 适合 印 载 时 ， 主 机 上 的 MPI 进程 会 将 计算 工作 移植 到 协 处 理 器 上 ， 以 多 
线程 方式 执行 。 这 一 种 方法 避免 在 协 处 理 器 上 开启 进程 ， 从 而 减少 了 计算 节点 上 的 MPI 3E 
程 数 量 。 然 而 ， 这 仍然 有 必要 使 用 OpenMP, pthread, Intel Cilk Plus 等 模型 对 应 用 程序 进 
行 多 线程 编程 一 一 与 MPI 代码 进行 高 效 整合 。 

在 这 种 思想 的 指导 下 ，HPC 应 用 程序 需要 选择 最 优 的 MPI 进程 数目 、 任 务 执行 地 点 及 
实现 负载 均衡 。 





图 13-1 早期 MPI 计算 中 的 单 处 理 器 节点 
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图 13-2 现代 HPC 集群 : old A AACR LAE SE EL T eI AE PE di RUBER Fas BTE: T5 e 


13.2 MPI 任务 地 点 


如 图 13-1 所 示 ， 在 早期 的 MPI 编程 中 ， 计 算 节 点 非常 简单 ， 不 用 考虑 MPI 任务 的 执行 
地 点 。MPI 将 读 取 一 个 包含 主机 名 称 的 文件 ， 在 每 个 主机 (节点 ) 上 初始 化 一 个 MPI 进程 
(任务 )。 每 个 MPI 进程 会 根据 在 进程 列表 中 的 位 置 分 配 一 个 唯一 的 进程 号 。 通 过 调整 进程 
列表 ， 就 会 实现 进程 和 硬件 处 理 需 之 间 的 不 同 映 射 ， 尽 管 没 有 必要 这 么 做 ， 因 为 对 于 GRE) 
处 理 器 而 言 ， 这 里 的 通信 互联 都 是 对 称 的 。 

现代 HPC 系统 的 每 个 节点 会 配备 多 个 处 理 器 、 协 处 理 器 和 图 形 加 速 卡 (GPU)。 每 个 
协 处 理 和 图 形 加 速 卡 都 有 自己 的 内 存 ， 而 处 理 融 间 会 共享 内 存 。 因 此 ， 像 Intel Xeon Phi 这 
样 的 协 处 理 为 UMA (Uniform Memory Access， 非 一 致 性 内 存 访 问 )， 而 处 理 器 为 NUMA 
( Nonuniform Memory Access， 非 一 致 性 内 存 访问 )。 同 时 ， 并 不 是 所 有 的 处 理 器 和 设备 都 直 
接 和 网 络 接口 互 连 。 

在 多 核 系 统 上 ， 为 每 个 内 核 启 动 一 个 MPI 任务 (进程 ) 是 常用 方法 ， 这 样 每 个 节点 会 有 
十 几 个 MPI 任 务 〈 进 程 )。 当 所 有 的 内 核 都 被 执行 通用 程序 的 MPI 任务 〈 进 程 ) 占用 时 ， 随 
机 映射 是 非常 好 的 选择 。 然 而 ， 对 于 科学 计算 领域 的 应 用 程序 而 言 ， 相 邻 任务 间 存 在 通信 或 
者 通过 一 个 节点 上 的 任务 (进程 ) 进程 聚集 通信 。 因 此 ， 选 择 一 种 高 效 的 映射 方式 会 提高 通 
信和 性 能 。 这 会 在 下 面 详细 解释 。 

当 配 置 协 处 理 器 的 系统 中 ，MPI 混合 程序 很 有 可 能 在 主机 上 开局 多 个 MPI 任 务 〈 进 程 )， 
也 会 在 协 处 理 上 或 多 或 少 地 开启 几 个 MPI 任务 GEE), OpenMP 并 行 区 域 就 会 为 主机 和 设 
备 的 并 行 区 域 开启 不 同 数目 的 线程 。 所 以 ， 在 现代 HPC 系统 的 异 构 、 非 对 称 和 NUMA 架构 
上 运行 混合 MPI 程序 ， 任 务 (进程 ) 和 线程 与 硬件 架构 的 映射 就 会 非常 重要 。 
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除非 有 硬件 架构 图 ， 和 否则 关于 cpu-ids 和 内 部 硬件 设备 间 的 映射 ， 不 会 有 太 多 工作 可 以 
做 。 幸 运 的 是 ， 从 大 约 2010 年 起 ， 一 个 称 为 hwloc 的 可 移植 硬件 本 地 化 软件 包 ， 可 检测 并 
且 列 出 NUMA 内 存 节点 (AD BER + ASAE). W/O 设备 (如 Infiniband HCA、PCI 桥 ) 等 。 
hwloc 不 需要 root 权限 ， 因 此 用 户 可 在 在 自己 的 用 户 目录 下 下 载 、 安 装 并 运行 该 软件 。 
图 13-3 展示 了 Stampede 系统 的 架构 特性 。 通 过 仔细 观察 图 13-3, ， 可 以 得 到 在 主机 上 进 
行 任务 (进程 ) 和 线程 分 配 所 需 的 详细 配置 信息 。 首 先 ， 标 记 为 插 槽 P#0 和 PAL 的 方 框 为 两 
^ SEHR, M NUMA 的 角度 看 ， 一 个 NUMA “节点 ”就 是 处 理 器 及 其 对 应 的 内 存 。 注 
意 ， 给 NUMA 节点 指定 的 “16GB ”内 存 为 处 理 器 的 本 地 内 存 。 世 片上 的 处 理 需 及 其 对 应 的 
分 层 存储 器 被 标记 NUMANode P#O 与 P21 ( 插 槽 是 HPC 领域 的 常用 名 称 ， 指 处 理 器 及 其 主 
板 上 的 支撑 结构 )。 在 下 面 的 讨论 中 ， 我们 将 交 蔡 使 用 NUMA 市 点 和 插 槽 。 


NUMANode P#0 (16GB) 


Lid (32KB) | | Lid (32KB) > E 





图 13-3 Stampede 节点 的 硬件 架构 图 Chwloc ) 


插 权 内 部 的 内 核 被 标记 为 PU (Processing Unit， 处 理 单元 )， 如 插 权 0 上 的 P#O = P#7 
和 插 权 1 上 的 P#8 … P#1S。 如 果 开 启 超 线程 技术 ， 每 个 次 灰色 的 方 框 中 将 会 有 两 个 PU。 这 
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J5 PU 标记 会 被 BIOS/OS 设置 为 硬件 索引 。 处 理 需 信息 也 记录 在 /proc/cpuinfo 文件 中 ， 可 
用 于 任务 (进程 号 rank) 和 线程 (线程 id) 与 处 理 顺 的 映射 。 

每 个 NUMA 节点 的 右边 是 设备 互联 。 连 线 为 PCIe 通道 ， 小 白 框 为 桥 。 在 #0 NUMA T 
Bi, HO 插 槽 中 人 处理 器 的 PCI 总 线 连接 网 络 (eth0/1 ) 和 硬盘 (sda), Æ #1 NUMA 节点 , #1 插 
槽 连接 InfiniBand HCA(mlx4 0 ), Intel Xeon Phi 协 处 理 器 (mic0 ) 连接 PCI 8086:225c 控制 器 。 

一 旦 了 解 了 设备 的 架构 布局 ， 你 就 会 对 MPI 任务 (进程 ) 和 线程 的 分 配 以 及 与 硬件 的 映 
BH BEST B SEE s 

图 13-4 对 Stampede R EF E35 TE BET YE SD xa EY AP E a A ch PE S [RS ^T 4 Tr DLE 
行 了 分 类 和 说 明 (白色 圆圈 为 混合 线程 )。 如 之 前 提 到 的 ， 除 非 只 有 少量 的 通信 并 且 每 个 任 
务 在 协 处 理 器 上 的 通信 存储 非常 小 ， 否 则 纯 MPI 的 方法 是 不 可 行 的 。 同 样 ， 只 在 主机 使 用 
MPI (++ 缉 载 )， 不 需要 协 处 理 执 行 任务 的 情况 ， 本 节 不 讨论 (尽管 混合 方法 在 主机 上 使 用 
MPI 任务 (线程 ) BEAT HAL). 
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13-4 MPI 应 用 程序 在 主机 和 协 处 理 器 上 的 常用 任务 分 布 方法 (Stampede 节点 ) 


图 13-4 描述 的 任务 混合 分 布 式 是 HPC 应 用 程序 在 进行 单 节 点 和 多 节点 计算 中 可 以 使 用 
的 所 有 合理 及 常用 的 方法 。 幸 运 的 是 ，Itel MPI 可 以 智能 地 确定 任务 (进程 ) 和 线程 在 处 理 
an Al Ab ee EPRI IA. AEE, ATTIRE ee FE MPI 的 非 最 优 实现 中 低 歼 
任务 分 布 的 相对 开销 是 一 件 好 事情 。 
BES (进程 ) 混合 编程 

每 个 NUMA TARS (进程 ) 的 混合 模式 《主机 上 启动 一 个 任务 《进程 )， 协 处 理 需 上 
启动 一 个 任务 (进程 )) 最 为 简单 。 因 为 协 处 理 需 的 所 有 内 核 都 是 相同 的 《除了 第 60 个 内 核 会 
进行 守护 进程 的 操作 之 外 )， 所 以 这 个 单 任 务 (进程 ) 可 映射 到 协 处 理 器 的 任意 内 核 上 。 内 核 
间 进 行 线程 映射 的 三 种 模式 为 : compact, balanced 和 scatter。 不 同 映射 方式 将 通过 一 个 示例 


进行 解释 。 假 如 我 们 有 一 个 计算 系统 ， 该 计算 系统 上 配置 了 4 个 内 核 ， 每 个 内 核 上 开局 了 4 
个 硬件 线程 。 如 图 13-5 所 示 ， 我 们 在 系统 上 分 别 按照 compact, balanced 和 scatter 方式 开局 了 
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8 个 线程 。 在 scatter 模式 下 ， 从 第 一 个 内 核 开 始 ， 按 照 循环 方式 在 每 个 内 核 上 分 配 两 个 线程 。 
balanced 模式 下 采取 和 scatter 模式 下 相同 的 策略 ， 但 是 每 个 内 核 上 分 配 的 线程 索引 是 连续 的 。 
在 这 种 情况 F, compact 模式 会 导致 有 些 内 核 处 于 
空闲 状态 。 正 是 由 于 这 个 原因 ， 当 开局 的 线程 数量 
少 于 内 核 数 时 〈 在 这 种 情况 下 是 内 核 *4。 一 一 译 者 
注 )， 推 荐 使 用 scatter 和 balanced 模式 。 

对 于 单 任 务 (进程 ) 的 情况 ， 当 在 并 行 区 域 开 
启 线程 时 ， 环 境 变 量 KMP AFFINITY 用 于 设置 
OpenMP 运行 时 在 协 处 理 器 和 处 理 需 上 进行 线程 
分 配 (关联 ) 的 方式 。 语 法 是 : 





export KMP_AFFINITY =[<modifier>,] type EPRS ENESA A ,stl 
和 compact 在 捅 模 间 以 类 似 的 方式 
其 中 ， 三 种 线程 分 配 (关联 ) 的 方式 是 compact, 进行 线程 关联 


balance 和 scatter， 并 且 可 以 使 用 modifier 中 定义 
的 处 理 器 列表 来 显 式 将 线程 关联 到 特定 内 核 上 。 除 了 使 用 处 理 硕 列表 显 式 绑 定 线程 外 ， 在 协 
处 理 器 上 ， 可 以 通过 使 用 粒度 和 内 核 修 改 器 将 线程 固定 到 一 个 内 核 上 的 一 个 硬件 线程 上 ,或 
者 允许 这 个 线程 在 所 有 的 人 硬件 线程 中 “ 腑 空 ”。 

对 于 协 处 理 右 ， 使 用 这 三 种 分 配方 式 的 其 中 一 种 是 有 意义 的 。 当 对 这 些 关 联 方 式 进行 试 
验 时 ,一 个 比较 好 的 开 问 是 尝试 : 

KMP_AFFINITY=“granularity =core,balanced” 


在 主机 端 ， 相 同 的 KMP_AFFINITY 设置 可 用 来 进行 单 任务 执行 。 任 务 顺序 可 通过 一 个 
偏 移 量 来 设置 (线程 0)。 例 如 ,设置 KMP AFFINITY = compact,0,8 将 会 把 第 一 个 线程 或 
者 是 MPI 任务 (进程 ) 分 配 到 第 8 (默认 为 0) 个 内 核 上 执行 。 

在 主机 端 ，Intel MPI 将 会 把 计算 节点 的 第 一 个 任务 分 配给 直接 和 HCA 相连 的 处 理 需 内 
核 士 。 对 于 在 主机 运行 单 任务 的 应 用 程序 ， 这 将 保证 最 好 的 通信 性 能 

如 图 13-5 HH, PU #1 AY PCI 总 线 直接 和 HCA 相连 (不 是 一 个 常用 的 设置 )。 因 此 ， 
第 一 个 进程 被 Intel MPI 映射 到 PU#1。 当 进行 点 对 点 通信 性 能 时 ， 映 射 到 PU #0 的 MPI f£ 
务 (进程 ) 要 比 映 射 到 PU #1 的 MPI 任务 (进程) 通信 性 能 要 低 。 当 消息 小 于 4KB 时 ， 人 性 
能 会 降低 40%; 当 消 息 长 度 介 于 8KB 与 16MB 之 间 时 ， 人 性 能 会 低 2096 一 1%。 

当 在 主机 或 者 协 处 理 器 上 开启 多 个 任务 GERE) 时 ， 分 配 任 务 〈 进 程 ) 以 及 提供 合适 用 
于 每 个 任务 映射 的 核 或 者 硬件 线程 更 具有 挑战 性 。Intel MPI 的 默认 分 配 是 合理 的 。 例 如 ， 如 
ac oe (进程 ) 被 分 配 到 Stampede 主机 上 ， 每 个 任务 〈 进 程 ) 将 会 被 映射 到 不 同 的 处 理 

这 样 只 会 在 任务 (进程 ) 所 在 的 处 理 右 上 进行 线程 划分 ( fork)。Intel MPI 有 许多 调整 

MPI (进程 ) 和 OpenMP 线程 位 置 和 分 布 的 机 制 。 对 于 混合 程序 ，KMP_AFFINITY 用 于 
定义 MPI 任务 (进程) 的 线程 的 分 布 ,，I MPI PIN DOMAIN 用 来 定义 每 个 MPI 任务 (进程 ) 
用 来 开启 其 线程 所 在 的 域 (每 个 域 包 含 一 系列 内 核 )。 例 如 ， 当 在 每 个 NUMA 内 存 节点 Gk 
有 两 个 Stampede 节点 ) 各 分 配 一 个 MPI 任务 (进程 ) AY, 设置 1 MPI PIN DOMAIN = socket 
将 确保 MPI 任务 (进程 ) 分 配 到 不 同 的 处 理 估 上。 

如 果 应 用 程序 需要 对 每 个 域 的 内 核 进行 精细 选择 ， 可 将 L MPI PIN DOMAIN 设 定 为 一 
个 标记 列表 (mask list)， 列 表 中 的 每 个 标记 元 素 代表 域 中 的 一 个 内 核 。 把 MPI 任务 (进程 ) 
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顺序 分 配给 各 个 元 素 。 也 就 是 说 ， 对 于 一 个 计算 节点 ， 把 索引 号 最 小 的 MPI 任务 (进程 ) 分 
配给 第 一 个 域 ， 下 一 个 分 配给 第 二 个 域 。 例 如 ， 如 果 OMP NUM THREADS =3， 计 算 节 点 
上 分 配 了 两 个 MPI 任务 (进程 )， 用 户 硕 望 索引 为 0 的 任务 将 它 的 三 个 线程 运行 在 索引 为 8、 
9 和 10 ARE, RIA 1 的 任务 将 它 的 三 个 线程 运行 在 索引 为 0、1 和 2 的 内 核 上 。 标 记 
列表 应 该 如 下 : 

标记 元 素 1: 0000 0111 0000 0000 

标记 元 素 2: 0000 0000 0000 0111 

为 方便 起 见 ， 标 记 列 表 可 用 十 六 进 制 数 赋值 ， 每 个 标记 列表 用 方 括号 括 起 来 。 那 么 ， 对 
于 两 个 MPI 任务 (进程) 的 标记 列表 可 如 下 表示 : 

export I MPI PIN DOMAIN-"[ 1500,15 ]" 


专家 会 避免 针对 特定 厂商 的 人 硬件 特性 设置 线程 关联 ， 而 是 通过 设置 环境 变量 将 信息 
传递 给 运行 时 。 在 UNIX 系统 上 ,会 在 代码 中 使 用 sched setaffinity 和 sched 
getaffinity 来 将 任务 线程 (每 个 线程 有 一 个 唯一 的 id) 绑 定 到 给 定 的 内 核 上 。 


13.3 DAPL 提供 者 的 选择 


选择 正确 的 提供 者 列表 有 助 于 提升 通信 性 能 。 本 节 将 会 介绍 各 提供 者 的 性 能 ， 然 后 说 明 
如 何 通过 MPI 环境 变量 来 指定 提供 者 。 

Intel MPI 能够 自动 选择 提供 者 列表 ， 然 而 ， 这 个 选择 并 不 总 能 保证 提供 最 佳 性 能 。 提 
供 者 的 选择 可 以 通过 环境 变量 1 MPI DAPL PROVIDER LIST 直接 控制 。 这 个 变量 的 值 是 
逗号 分 隅 的 提供 者 列表 (最 多 三 个 )， 语 法 如 下 : 

I MPI DAPL PROVIDER LIST-2* 

«Providerl,Provider2,Provider3» 

列表 中 的 每 个 提供 者 都 扮演 着 不 同 角色 : 

e Providerl: 针对 短 消 息 。 该 提供 者 应 该 有 低 延 迟 性 能 。 

e Provider2 : 针对 节点 内 的 长 消息 。 适 用 于 涉及 协 处 理 右 的 MPI 程序 或 者 使 用 DAPL 

进行 节点 内 通信 。 

e Provider3: 针对 节点 加 的 长 消息 。 

在 Stampede 系统 上 ， 提供 者 列表 的 值 为 : 

I MPI DAPL PROVIDER_LIST=\ 

ofa-v2-mlx4 0-1u, ofa-v2-scif0, ofa-v2-mcm-1 


13.3.4 第 一 个 提供 者 OFA-V2-MLX4_0-1U 


提供 者 1 由 Intel MPI B XE, 不 需要 任何 用 户 的 操作 。Stampede 系统 直接 使 用 节点 
上 可 用 的 InfiniBand 卡 进 行 消息 交换 。 


13.3.2 第 二 个 提供 者 ofa-v2-scifO 以 及 对 节点 内 部 结构 的 影响 


第 二 个 提供 者 ofa-v2-scif0 ( 称 为 scif) 对 节点 内 长 消息 性 能 有 着 重要 的 影响 。 同 时 ， 
节点 内 部 结构 的 选择 对 scif 的 效果 也 有 着 重要 的 影响 。 这 个 结构 可 通过 使 用 如 下 环境 变量 
选择 : 
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I MPI FABRICS=\ 

«fabric > |< intra-node fabric»: «inter-nodes fabric» 

基于 InfiniBand 集群 进行 节点 间 通 信 的 推荐 结构 是 DAPL. Intel MPI RENH ENA 
进行 节点 内 通信 。 然 而 ， 如 果 选 择 DAPL 进行 节点 间 和 节点 内 通信 ， 很 多 MPI 应 用 程序 的 
性 能 会 得 到 提升 。 这 就 意味 着 在 设置 环境 变量 L MPI FABRICS 时 ， 有 两 个 不 同 的 选择 : 

(I MPI FABRICS = dapl) 

或 者 

(I MPI _ FABRICS = shm:dapl) 

后 者 会 根据 MPI 应 用 程序 执行 时 的 消息 大 小 进行 选择 。 

为 了 说 明 不 同 选择 对 性 能 的 影响 ， 图 13-6a 提供 了 DAPL (使 用 和 没 使 用 scif) 与 shm : 
dapl 的 性 能 对 比 。 使 用 Intel MPI 5.0 在 两 个 CPU 间 进 行 节点 间 通 信 。 从 图 13-6b〈 协 处 理 需 
间 ) 和 图 13-6c (CPU 和 协 处 理 需 间 ) 可 以 观察 到 相似 的 结果 。 这 些 结果 通过 运行 Intel MPI 
Benchmark (IMB) 4.0 中 的 Pingpong 测试 程序 获得 。 


BW( 插 槽 间 )， 节 点 内 BW( 协 处 理 器 间 ) — 


7000| —~ shm:dap! 





z 一 一 一 一 一 0 
512 4096 32768 262144 2 097 152 512 4096 32768 262144 2097 152 
消息 长 度 ( 字 节 ) 消息 长 度 ( 字 节 ) 





BW (CPU 和 协 处 理 器 间 )， 节 点 内 





5000, -—*- shm:dapl _ JA 


al nuir 
512 4096 32768 262144 2097 152 
消息 长 度 ( 字 节 ) 





图 13-6 MPI 提供 者 的 性 能 : a) CPU 间 通 信 ; b) 协 处 理 器 间 通 信 ; c) CPU 和 协 处 理 器 间 通 信 


可 以 得 出 ，shm:dapl 可 在 消息 较 短 时 提供 最 高 性 能 。 当 应 用 程序 传递 的 消息 超过 
256KB 时 ，dapl+scif 是 最 佳 选 择 。 我 们 也 可 以 发 现 scif 没 有 被 Intel MPI 自动 应 用 于 CPU 
间或 者 协 处 理 间 的 通信 。 这 些 情况 下 的 最 高 性 能 都 是 通过 显 式 指 定 最 佳 组 合 获 得 的 。 这 可 能 
是 Intel MPI 在 未 来 需要 改进 的 地 方 。 

在 所 有 情况 下 ， 当 选择 shm:dapl 时 ， 第 二 个 提供 者 对 性 能 没有 影响 ，。 


13.3.3 ”最 后 一 个 提供 者 ” 


当 使 用 InfiniBand 网 络 接 口 时 ，Intel Xeon E5 处 理 器 提供 的 有 限 P2P 本 地 读 取 带宽 会 
昌 ”也 称 为 代理 。 
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明显 影响 与 Intel Xeon Phi 协 处 理 需 的 通信 性 能 。 如 图 13-7 Pras, P2P 本 地 读 取 操作 的 低 带 
宽 是 MPI 库 的 性 能 瓶颈 。 


CPU Socket CPU Socket 





图 13-7 本 地 MPI 读 / 写 性 能 


为 了 解决 这 个 问题 ，Intel MPI 围绕 这 个 限制 引入 了 一 个 增强 设计 ， 为 Stampede 及 其 相 
似 系 统 的 主机 和 协 处 理 器 间 的 MPI 消息 传递 提供 了 更 好 的 性 能 。 

现在 ,Intel Xeon ES 处 理 器 家 族 可 以 在 CPU Al PCI 设备 间 实 现 最 高 7GB/s 的 读 取 带宽 ， 
写 人 带宽 也 差不多 。 同 样 ， 使 用 单口 InfiniBand FDR HCA， 节 点 间 主 机 和 主机 的 通信 带宽 
也 可 达到 6GB/s。 

对 于 协 处 理 硕 和 其 他 节点 之 间 的 长 消息 通信 ， 提 供 者 使 用 的 机 制 是 一 个 基于 主机 的 方 
法 ， 称 为 代理 。 该 代理 利用 两 条 通道 ( 协 处 理 需 到 主机 、 主 机 到 HCA)， 人 性 能 为 有 限 的 P2P 
本 地 读 取 带 宽 。 图 13-7 显示 了 本 地 P2P 读 取 的 低 带 宽 。 

该 代理 对 于 包含 协 处 理 器 的 节点 间 通 信 
默认 是 启动 的 。 但 为 了 说 明 这 个 代理 有 多 么 重 带宽 性 能 w/wo 代 理 
要 ,我 们 分 别 在 开启 和 关闭 该 代理 的 情况 下 使 
用 Intel MPI 5.0 测试 了 节点 间 协 处 理 右 到 协 处 
理 器 的 通信 性 能 。IMB 4.0 的 Pingpong 测试 用 
例 用 来 测试 性 能 。 当 较 低 的 读 取 性 能 问题 通过 
代理 解决 后 (图 13-8 所 示 )，4.5GB/s 的 代理 带 
宽 低 于 我 们 能 够 获得 的 性 能 (如 果 本 地 读 性 能 
同 本 地 写 性 能 同样 高 )。 


13.3.4 混合 程序 的 可 扩展 性 


当 使 用 科学 计算 应 用 程序 时 ， 如 何 将 微型 基 消息 大 小 ( 字 节 ) 
准 测试 的 运行 结果 转化 为 可 量化 的 效果 是 非常 重 





图 13-8 Intel MPI 开启 和 关闭 InfiniBand 代理 
要 的 。 本 章 以 格子 玻 耳 效 曼 方 法 (lattice Boltzmann em — 


method , LBM) 作为 对 象 研究 这 个 问题 。 该 算 


法 的 具体 实现 对 应 Ibs3d-mpi, 在 mplabs 包 中 的 开源 代码 。13.8 节 有 更 多 细节 
LBM 是 一 个 在 高 层次 细节 上 研究 流体 动力 学 的 介 观 技术 。LBM 与 传统 计算 流体 动力 学 
的 区 别 是 没有 使 用 线性 解法 器 。 规 则 的 笛 卡 儿 网 格 和 完全 明确 的 时 间 演 化 使 得 代码 并 行 和 
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优化 相对 简单 。 通 过 在 每 个 计算 网 格 点 进行 一 系列 的 本 地 计算 完成 该 问题 的 动态 演化 ， 随 
后 通过 内 存 操 作 将 计算 结果 传 给 邻居 网 格 点 。 这 就 是 众所周知 的 LBM 的 碰撞 流 ( collision- 
stream) 实现 方法 。 该 技术 更 加 详细 的 介绍 可 阅读 SauroSucci 写 的 书 ( 见 13.8 47). 

Ibs3d-mpi 代码 基于 自由 能 ( Free-Energy) 实现 (作者 为 Zheng、Shu 和 Chew)。 该 代码 
使 用 了 一 个 基于 D3Q19 分 解 的 底层 模型 来 计算 流体 阶 
段 的 速度 和 D3Q7 分 解 ， 这 将 在 每 个 时 间 步 长 的 每 个 
MPI 任务 (进程 ) 的 子 域内 导致 相 邻 MPI 任务 (进程 ) 
通过 6 个 面 和 12 条 边 发 生 通信 。 图 13-9 显示 了 D3Q7 
和 D3Q19 的 离散 速度 。 为 了 更 加 清晰 ， 图 13-9 仅仅 
对 D3Q7 相关 的 箭头 进行 了 编号 。 

为 了 适应 MPI 交换 在 每 个 任务 计算 域 中 使 用 单个 
ghost 层 。lbs3d-mpi 目前 的 实现 没有 将 计算 和 通信 重 
等 。 因 此 ， 这 应 该 是 在 最 坏 情况 下 研究 Intel MPI 代理 
对 应 用 程序 整体 性 能 影响 的 一 个 好 例子 。 

本 节 使 用 的 代码 实现 基于 MPI 域 分 解 ， 并 将 主要 图 13-9 D3Q19 模型 的 速度 分 解 方向 。 





循环 使 用 OpenMP 进行 并 行 化 。 要 在 协 处 理 器 上 获取 注意 ， 数 据 必须 在 计算 域 的 所 
高 性 能 ， 混 合 实现 是 必需 的 。 为 了 最 大 化 每 个 线程 的 人 


工作 量 ， 在 计算 的 最 外 层 循环 中 进行 了 OpenMP 并 行 化 。 把 计算 域 平均 分 配 到 所 有 MPI 任务 
(进程 ) 中 ， 计 算 域 划分 可 由 用 户 控 制 。 本 节 呈 现 的 例子 沿 ? 方向 进行 划分 ， 以 便 x 方 向 和 z 
方向 上 的 循环 可 分 别 利 用 向 量化 和 OMP 并 行 等 优化 方法 。 在 OMP 并 行 区 域 没 有 MPI 调用 。 

由 于 算法 的 特性 ，LBM 模拟 倾向 使 用 相当 大 的 计算 网 格 ，MPI 通 信 时 间 通 党 由 在 各 个 
子 域 面 进行 交换 的 长 消息 数据 决定 。 当 使 用 混合 实现 时 ， 由 于 每 个 任务 需要 传递 更 大 的 消 县 
数据 ， 这 种 效应 更 加 明显 。 因 为 代理 对 大 数据 交换 是 最 有 效 的 。 所 以 当 这 份 代码 使 用 协 处 理 
器 的 本 机 模式 和 对 称 模式 时 ， 开 局 Intel 基于 代理 的 通信 ， 应 该 在 程序 的 可 扩展 性 方面 有 很 
大 的 不 同 。 

图 13-10 展示 了 开启 代理 对 来 自 mplabs 的 lbs3d-mpi 代码 整体 性 能 的 影响 。 性 能 指标 采 
用 每 秒 更 新 的 格子 数 (单位 为 10"，MLUPS ): 


LIII 
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| 























图 13-10 LBM 代码 在 CPU 和 协 处 理 器 上 的 可 扩展 性 : 开启 代理 、 未 开启 代理 
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MLUPS=( 网 格 容量 x 时 间 步 长 ) T TE 8] x 108) 
初始 实现 使 用 了 240 个 OMP 线程 ， 并 设置 线程 关联 为 compact 模式 ， 每 个 节点 分 配 一 个 
MPI 任务 (进程)。 计 算 域 在 每 个 节点 保持 240*240*240 个 网 格 点 。 在 这 个 例子 中 ，MPI 通 
信 由 超过 1MB 的 消息 交换 决定 。 测 试 中 开启 代理 并 将 环境 变量 设置 为 : 
I MPI DAPL PROVIDER LIST=ofa-v2-mlx4_0-1u,ofa-v2-mcm-1 

图 13-10 非 浓 清晰 地 显示 了 使 用 代理 对 任何 涉及 协 处 理 器 的 通信 带 来 的 优势 。 带 方 框 的 
线 展示 了 CPU 初始 实现 版 本 的 可 扩展 性 ， 当 使 用 代理 后 并 没有 发 生变 化 。 带 十 字 和 三 角形 
的 线 分 别 代表 了 使 用 和 没有 使 用 代理 的 性 能 。 当 运行 64 个 节点 时 ， 最 多 获得 了 22% 的 性 能 
提升 。 请 注意 ， 这 和 通信 时 间 的 大 幅 缩 减 是 成 比例 的 ， 因 为 MPI 仅仅 是 整体 运行 时 间 的 一 
部 分 。 

代理 对 Ibs3d-mpi 代码 整体 性 能 的 效果 ， 在 使 用 对 称 模式 时 也 可 以 得 到 相似 的 结果 ， 并 
且 对 性 能 的 影响 更 加 明显 当 在 64 个 节点 上 执行 时 ， 获 得 了 31% 的 性 能 提升 。 因 为 代码 在 
协 处 理 硕 上 的 运行 性 能 大 约 是 在 主机 处 理 大 上 运行 性 能 的 两 倍 ， 所 以 每 个 节点 使 用 了 三 个 
MPI 任务 〈 进 程 )， 一 个 分 配给 主机 处 理 需 ， 两 个 分 配给 协 处 理 器 。 这 虽然 实现 了 一 个 静态 
负载 均衡 ， 然 而 ， 每 个 计算 市 点 的 MPI 任务 (进程 ) 增长 了 3 倍 ， 并 增加 了 通信 。 


13.3.5 ”负载 均衡 


正如 前 文 提 到 的 ， 因 为 这 份 代 码 使 用 了 域 分 解 方法 ， 并 且 在 协 处 理 器 上 的 性 能 是 在 双 
fate CPU 上 性 能 的 两 倍 (CPU 主机 上 开局 了 16 
个 线程 ， 协 处 理 需 上 开局 了 240 个 线程 )， 协 处 
理 器 上 部 署 的 MPI 任 务 (进程) 也 是 处 理 器 的 两 
倍 。 这 是 一 个 实现 静态 负载 均衡 的 简单 方法 。 注 
意 ， 如 图 13-11 所 示 ， 硅 不 如 此 处 理会 导致 性 能 
降低 。 


13.3.6 ”任务 和 线程 映射 


性 能 


Phi 工 作 负 载 部 分 
值得 注意 的 是 ， 对 于 所 有 的 代码 版 本 ，MPI 图 13-11 协 处 理 器 工作 负载 部 分 的 性 能 模 
任务 映射 都 使 用 了 如 下 设置 : 型 。 注 意 ， 将 太 多 或 者 太 少 工作 分 
I MPI PIN MODE - omp:compact 配给 协 处 理 器 会 导致 性 能 的 降低 


KMP AFFINITY =compact, granularity — fine 


虽然 我 们 可 以 设置 MPI 任务 GERE) A OMP 线程 映射 与 关联 ,但 是 必须 要 小 心 ， BE 
免 将 多 个 逻辑 线程 绑 定 到 主机 的 相同 内 核 上 或 者 协 处 理 需 的 相同 硬件 线程 上 。 在 最 坏 的 情况 
下 ， 所 有 线程 可 能 会 在 同一 个 内 核 或 者 同一 个 硬件 线程 上 执行 ， 从 而 导致 多 个 线程 的 串 行 执 
行 。 作 为 一 个 例子 ， 将 所 有 线程 都 绑 定 到 主机 索引 为 0 的 内 核 上 ， 仅 仅 获 得 AMLUPS 的 性 
能 ， 比 正确 绑 定 的 性 能 (大约 SOMLUPS) 低 了 一 个 数量 级 。 在 协 处 理 器 上 这 个 效果 更 加 明 
显 ， 性 能 仅 为 1.4MLUPS， 比 最 佳 映 射 慢 了 两 个 数量 级 (大约 112MLUPS). 

通过 Intel MPI 库 选 择 的 绑 定 会 使 用 硬件 信息 、 合 理 的 线程 分 配 机 制 ， 通 常会 提供 最 高 
的 整体 性 能 。 当 同 其 他 MPI 实现 一 起 使 用 并 分 析 混 合 代码 的 性 能 时 ， 牢 记 硬 件 配置 和 分 布 
模式 是 非常 重要 的 。 
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13.4 总结 


近年 来 ，MPI 实现 进行 了 很 多 改进 以 适应 更 加 复杂 的 计算 节点 架构 : 多 层 NUMA 架构 、 
非 对 称 性 链接 和 异 构 微 处 理 咒 (处 理 器 和 协 处 理 器 )。 当 任务 数 比 内 核 数 少时 ， 任 务 和 线程 
在 内 核 上 的 不 同 映射 会 在 性 能 方面 产生 很 大 的 不 同 。 

为 了 能 够 在 不 同 消 息 大 小 的 情况 下 都 实现 高 性 能 ， 有 必要 指定 合适 的 MPI 提供 者 。 正 
如 本 和 草 的 例子 所 示 : 使 用 Intel MPI 提供 的 代理 在 多 个 协 处 理 器 间 获 得 最 佳 通信 性 能 是 非常 
关键 的 。 
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e Zheng, H.W., Shu, C., Chew, Y.T., 2006. A lattice Boltzmann model for multiphase flows 
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e TACC Stampede 系统 是 具有 6400 个 节点 的 计算 机 集群 ， 每 个 节点 包含 两 个 8 核 的 
Intel E5-2680 至 强 处 理 器 和 一 个 61 核 的 Intel Xeon Phi SE10P 协 处 理 器 。 节 点 间 通 
过 FDR InfiniBand 网 络 连 接 。 更 多 详情 请 访问 : https: //www.tacc.utexas.EDU ; 

e 本 章 介绍 的 所 有 测试 均 使 用 如 下 工具 链 : MPSS V2.1.6720、Intel 编译 器 V14.0.1.106 
和 Intel MPIV4.1.3.049 。 
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14.1 功 耗 分 析 


本 草 将 介绍 对 Intel Xeon Phi 协 处 理 顺 进行 功 耗 分 析 的 方法 和 工具 ， 工 作 负 载 将 选用 高 
性 能 计算 (High Performance Computing, HPC) 程序 。 

功 耗 定义 为 单位 时 间 消 耗 的 能 量 ， 单 位 是 焦耳 每 秒 (J/s) 或 更 常用 的 瓦特 。 本 章 将 使 用 
瓦特 作为 功 耗 测量 的 标准 单位 。 

瞬时 功 耗 的 计算 公式 基于 欧姆 定律 : 功 耗 等 于 电流 乘 以 电压 。 电 流 是 通过 导体 的 电子 
流 ， 单 位 是 安培 。 电 压 等 于 在 静电 场 中 移动 单位 电荷 所 做 的 功 ， 单 位 是 伏特 。 

功 耗 可 以 由 安培 数 乘 以 电压 来 计算 ， 也 可 由 很 多 方法 来 测量 ， 例 如 ， 可 以 测量 瞬时 原始 
功 耗 、 平 均 功 耗 、 峰 值 功 耗 、 最 小 功 耗 、 均 方 根 功 耗 或 者 对 原始 功 耗 数据 进行 移动 平均 ， 本 
章 选 用 称 作 “1 秒 移动 平均 ”( 1-second moving average) 的 标准 。 选 用 这 种 功 耗 分 析 标 准 是 
由 于 它 是 热 相 关 的 ， 与 现实 世界 可 测量 的 热 事 件 具 有 相互 关系 。 人 例如， 如果 仅 测量 瞬时 功 
耗 ， 可 能 会 测 得 一 些 持续 时 间 很 短 的 功 耗 尖峰 ， 但 这 些 尖峰 并 不 会 对 硅 片 温度 造成 可 测量 的 
影响 。 在 实际 应 用 中 ，Intel MPSS 控制 面板 显示 的 功 耗 就 是 1 秒 移动 平均 。 

在 电子 学 中 男 一 个 常用 的 功 耗 术语 是 热 设计 功 耗 (thermal design power，TDP)， 它 也 使 
用 瓦特 来 描述 。TDP 指 的 是 设备 在 进行 典型 操作 中 产生 的 最 大 热量 ， 制 冷 设备 必须 将 这 些 
热量 驱散 。 例 如 ， 一 些 型 号 的 Phi 协 处 理 器 TDP 是 300W， 还 有 一 些 是 245W。TDP 也 可 作 
为 全 速 运行 该 协 处理 器 时 功 耗 预算 的 基准 值 。 但 该 协 处 理 需 功 耗 并 不 会 严格 低 于 额定 TDP, 
TDP 不 是 潜在 的 峰值 功 耗 ， 而 是 运行 典型 应 用 的 额定 功 耗 。 精 心 设计 的 程序 (比如 功 耗 病 
毒 ) 也 可 能 超过 额定 TDP， 但 典型 的 HPC 工作 负载 绝 不 会 出 现 这 种 情况 。 

测量 直流 ( direct current, DC) 功 耗 的 方法 之 一 是 使 用 测量 电阻 。 这 种 电阻 阻 值 很 小 ， 
当 电流 通过 电阻 时 ， 将 产生 与 电流 值 成 正比 的 较 小 电压 ， 由 此 可 测 得 电流 的 安培 值 ， 再 乘 以 
电压 值 即 得 到 瞬时 原始 功 耗 。 电 压 是 通过 将 测量 仪器 探头 置 于 电源 正 负 极 来 测量 的 。 这 些 工 
作 通 党 由 一 些 数据 采集 人 硬件 来 完成 ， 比 如 示波器 、 数 据 采集 (Data Acquisition, DAQ) 单元 ， 
甚至 简单 的 微 控制 咒 。 实 际 使 用 中 ，Phi DRABZE at 61458 — TW EXE fü] 4-2] FE 27 Dr a, Intel 
MPSS 工具 可 以 获取 该 分 析 需 的 数值 ， 如 图 14-1 所 示 。 

Phi 协 处 理 需 利用 电路 板 上 一 个 叫 作 系统 管理 控制 器 〈system management controller, 
SMC) AY tb Bat. SMC 的 工作 之 一 是 监控 协 处 理 占 的 输入 直流 功 耗 、 协 处 理 器 的 硅 片 温 
度 传感器 及 图 14-2 所 示 的 其 他 热 传 感 器 。 图 14-2 也 展示 了 补充 的 2x3 及 2x4 12V 电源 连 
接 器 位 置 (这 两 个 电源 连接 器 是 正常 操作 所 必需 的 )。 如 果 协 处 理 絮 使 用 有 源 风 户 ，SMC 也 
监控 风扇 速度 。 基 于 软件 的 功 耗 分 析 需 将 利用 SMC 的 这 些 特征 获取 协 处 理 器 功 耗 和 硅 片 温 
BE. FA 14-2 还 展示 了 其 他 与 协 处 理 右 CPU 温度 无 关 的 一 些 热 传 感 硕 ， 比 如 存储 项 、 和 人口 温 
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作 负 载 时 比较 有 用 ， 因为 运行 高 功 耗 的 负载 需要 对 服务 器 或 计算 节点 进 和 本 热 调 整 ， 比 如 调整 
最 低 服 务 器 风扇 速度 ， 甚 至 调整 数据 中 心 的 周围 温度 以 达到 理想 的 冷却 条 件 。 


Cards: 1 Memory: SGB Corex: 60 


Core Histogram View _ 





图 14-1 Intel MPSS micsmc 工具 显示 的 功 耗 和 温度 


Intel Xeon Phi 协 处 理 器 硅 片 
出 口 热 传 感 器 


150W 2x 4 
电源 连接 器 
入 口 热 
传感器 


75W2x3 
电源 连接 器 





i GDDR 稳 压 器 
蓝 色 状态 LED mmm GDDR 


图 14-2 Phi 协 处 理 器 卡 的 热 传 感 器 位 置 


14.2 ”用 软件 测量 功 耗 和 温度 

如 图 14-1 所 示 ， 标 准 Intel MPSS 控制 面板 的 micsme JJ B6 3c FE AT EMI FE $& UL FE RU RE 
片 温度 的 监控 。 如 果 Intel MPSS 是 按 默 认 用 户 指南 安装 的 ，micsme 应 该 已 在 用 户 路 径 下 ， 
本 章 将 讨论 的 使 用 方法 基于 Linux. 上 上 默认 安装 的 Intel MPSS， 通 过 执行 下 面 的 命令 即 可 使 用 
Intel MPSS 控制 面板 : 

$ micsmc 
执行 后 ，Intel MPSS 控制 面板 就 会 弹出 ， 不 断 显 示 出 监控 到 的 协 处 理 需 功 耗 、 温 度 以 及 协 处 
理 需 和 存储 器 的 使 用 情况 。micsmec 接受 参数 输入 ， 如 果 输 入 下 面 的 命令 : 


$ micsmc —a 
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$143 


命令 行 终端 将 会 显示 所 有 协 处 理 需 功 耗 、 热 及 使 用 情况 指示 部 。 输 入 下 面 的 命令 会 显示 所 有 


micsmc MA: 


$ micsmc --help 


micsme 工具 对 于 监控 协 处 理 融 功 耗 和 温度 非常 有 用 。 但 如 宁 只 想 碍 看 协 处 理 融 的 功 耗 ， 需 


使 用 -f 选 项 : 
$ micsmc -f 


如 图 14-3 Pitas, micsme 可 以 给 出 协 处 理 需 在 任何 特定 
时 间 的 总 功 耗 ， 也 会 同时 显示 出 协 处 理 硕 内 核 的 频率 。 
micsme 另 一 个 很 好 的 特征 是 可 以 同时 测量 系统 中 所 有 
的 Phi 协 处 理 器 。 在 请 求 发 出 时 ，micsmc 将 获取 所 有 协 
处 理 器 的 瞬时 功 耗 快照 。-t 选项 用 于 获取 协 处 理 需 温度 


$ micsmc -t 


如 图 14-4 所 示 ，micsmc 可 以 显示 协 处 理 带 的 温度 信息 ， 
除了 CPU 温度 信息 ， 还 有 很 多 其 他 部 分 的 温度 信息 ， 
包括 存储 器 、 人 口 / 出 口 等 。 图 14-2 ÈR T UMEA E 
这 些 温度 传感器 的 位 置 。micsmc 的 这 一 特征 在 进行 平 
台 调 整 及 理想 最 低 风 局 速度 设 定 时 非常 有 用 ,为 主机 服 
务 需 或 计算 节点 设 定 最 低 风 扇 速 度 可 以 使 风扇 功 耗 最 小 
44. micsme 工具 可 以 显示 系统 中 或 一 个 集群 节点 中 所 有 
Phi 协 处 理 器 的 功 耗 和 热 信息 。 


14.2.1 创建 功 耗 和 温度 监控 脚本 


上 一 节 介 绍 了 Intel MPSS micsme 功能 可 以 显示 协 
处 理 需 的 功 耗 和 温度 信息 。 当 用 户 需 要 监控 关键 HPC 
应 用 的 功 耗 和 热 信息 以 及 执行 平台 热 调整 时 ， 这 非常 实 
用 。 因 为 micsmc 运行 在 主机 服务 器 或 计算 节点 上 ， 所 
以 用 户 可 以 使 用 标准 脚本 创建 基于 micsme 的 简单 而 实 
FH BUREAU TEAT o 

一 个 实用 的 脚本 应 该 仅 监 控 协 处 理 融 功 耗 及 CPU 
温度 ， 并 包含 一 个 时 间 惟 ， 而 不 是 读 出 所 有 的 温度 值 。 
然而 ， 如 之 前 的 例子 所 示 ，micsmc 输出 信息 远 比 协 处 理 
器 的 总 功 耗 和 CPU 温度 要 多 。 如 果 想 仅 输出 如 图 14-5 
所 示 的 功 耗 和 热 信息 ， 可 以 使 用 图 14-6 所 示 的 功 耗 及 热 
监控 脚本 。 

图 14-6 中 的 代码 在 shell 脚本 文件 power monitor. 
sh 中 (本 书 代码 在 lotsofcores.com 下 载 )。 运 行 脚本 时 ， 
屏幕 将 显示 类 似 图 14-5 的 信息 ， 这 个 方便 的 小 脚本 可 以 
运行 在 后 人 台 ,， 来 监控 协 处 理 器 功 耗 和 硅 片 温度 。 输 出 信 
息 可 以 直接 写 人 文本 文件 中 。 


micO (freq): 
Core Frequency: .......... 1.24 GHz 
Total Power: ............. 115.00 Watts 
Low Power Limit: ......... 315.00 Watts 
High Power Limit: ........ 375.00 Watts 


mic1 (freq): 
Core Frequency: ......... 1.24 GHz 
Total Power: ............. 109.00 Watts 
Low Power Limit: ......... 315.00 Watts 
High Power Limit: ........ 375.00 Watts 





图 14-3 micsmc 工具 显示 的 
PPA FH AS FE 


micO (temp): 
Cpu Temp: sa 66.00 C 
Memory Temp: ............. 46.00 C 
Fan-In Temp: ............. 39.00 C 
Fan-Out Temp: ........... 46.00 C 
Core Rail Temp: ......... 46.00 C 
Uncore Rail Temp: ........ 47.00 C 
Memory Rail Temp: ........ 47.00 C 


mic1 (temp): 
Cpu Tempi usen, 64.00 C 
Memory Temp: ............. 44.00 C 
Fan-In Temp: ............ 35.00 C 
Fan-Out Temp: ............ 44.00 C 
Core Rail Temp: .......... 43.00 C 
Uncore Rail Temp: ....... 44.00 C 
Memory Rail Temp: ........ 44.00 C 





图 14-4 micsmc 工具 显示 的 
协 处 理 需 温度 信息 


Timestamp: 11:00:18.576 


micO Power: 101.00 Watts 
mic1 Power: 107.00 Watts 


mic0 Temp: 37.00 C 
mic1 Temp: 39.00 C 





图 14-5 抽样 功 耗 和 温度 记录 央 输 出 
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#!/bin/bash 


while : ; do 


# Build the Timestamp string 

STR= echo $(date +%N) | sed 's/^0*//^ 
STR= printf "9503d" $(($STR/1000000)) 
STR= echo $(date +%H:%M:%S)"."$STR 
TIME="Timestamp: $STR" 


# Format the power and thermal data string as desired 
DATA="$({ micsmc -f; micsmc -t; sleep .1; ) | grep -e Cpu -e temp -e 
Total -e freq | paste -d'' - - | awk (print $1,$4,"\t",$6,$7 }')" 


# Display our power and thermal data strings 


clear 


echo "$TIME" 
echo "$DATA" 





done 


图 14-6 «ph BA RE RU BE de AY bash shell 脚本 [power monitor.sh] 


注意 使 用 Intel MPSS micsmc 工具 测量 功 耗 时 值得 注意 的 是 ，Intel Xeon Phi 协 处 理 器 
支持 多 种 低 功 耗 待 机 模式 ， 但 当 使 用 micsmc 测量 功 耗 时 ， 协 处 理 器 会 立即 结束 当前 的 待机 
状态 。 因 此 ,使 用 micsmc 工具 无 法 测量 协 处 理 器 真实 的 待机 功 耗 。 


14.2.2 ”使 用 micsmc 工具 创建 功 耗 和 温度 记录 器 


上 一 节 介 绍 了 一 个 监控 协 处 理 器 功 耗 和 CPU 硅 片 温度 的 脚本 示例 。 作 为 一 个 简单 的 功 
耗 监 控 帮 或 功 耗 计 ， 在 对 HPC 工作 负载 进行 功 耗 、 性 能 调整 或 平台 热 调 整 时 这 很 有 用 。 

然而 ， 另 一 个 值得 具备 的 能 力 是 将 功 耗 和 热 数 据 记 录 到 标准 格式 的 文件 中 ， 如 .csv， 以 
便 使 用 其 他 功 耗 曲线 或 图 更 好 地 对 原始 功 耗 数 据 进行 再 处 理 。 另 外 ， 用 户 也 会 需要 在 功 耗 、 
uid ae SHEL BA A Ta eK, 5 HPC 应 用 程序 的 不 同 计算 阶段 进行 时 间 死 配 ， 以 计算 每 瓦 每 
秒 的 浮 点 运算 次 数 。 

为 了 处 理 更 复杂 的 数据 操作 ， 用 户 可 能 需要 使 用 比 bash 更 高 级 的 脚本 语言 。 本 节 下 一 
段 代 码 示 例 将 使 用 支持 各 种 数据 类 型 的 Python 语言 ， 改 进 后 的 功 耗 和 热 记 录 脚 本 将 输出 如 
图 14-7 所 示 的 记录 文件 。 

图 14-7 的 输出 可 以 直接 导入 Microsoft Excel 产生 
SMA. AA FE Ri A FERRY AY fal ak, Pr OA 
户 可 将 这 些 数据 与 HPC 工作 负载 不 同 计算 阶段 的 统计 
言 息 相 匹配 ， 以 计算 每 瓦 每 秒 的 浮 点 运算 次 数 。 计 算 效 
率 时 ， 用 户 不 应 该 将 HPC 代码 初始 化 以 及 内 存 清理 阶 
段 的 功 耗 数据 包括 在 内 ， 应 该 使 用 时 间 惟 来 匹配 功 耗 
数据 和 HPC 程序 的 并 行 计 算 阶 段 。 本 例 将 选用 高 性 能 
LINPACK (HPL) 本 机 语言 工作 负载 ， 使 用 Intel MPSS 
RPM (micperf RPM), [JH micprun 应 用 来 运行 。 图 14-8 图 14-7 用 Python 语言 编写 的 示 
显示 了 由 本 例 功 耗 数据 绘制 的 功 耗 曲 线 。 例 功 耗 和 温度 记录 器 输出 
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上 图 显示 了 在 协 处 理 吕 上 运行 HPL 的 整个 功 耗 曲线 。 典 型 的 HPC 工作 负载 可 能 包括 初 


台 化 、 计 算 及 内 存 清 理 阶 段 。 为 计算 真正 的 
每 瓦 每 秒 的 浮 点 运算 次 数 ， 用 户 需要 将 记录 
文件 中 不 同 的 功 耗 抽样 (在 并 行 计 算 阶 段 获 
取 ) 与 HPL 的 并 行 计 算 阶 段 相 匹配 。 有 许多 
方法 可 以 完成 这 一 任务 ， 比 如 ， 在 HPC 程序 
日 志 中 计算 阶段 的 开始 和 结束 加 时 间 戳 。 功 
耗 数 据 需 要 进行 过 滤 ， 以 去 除 在 程序 并 行 计 
算 阶 段 以 外 的 数据 ， 再 对 剩余 的 有 效 功 耗 抽 
样 取 平 均值 ， 即 为 并 行 阶段 的 平均 功 耗 。 大 
多 数 情 况 下 ，HPC 程序 的 计算 阶段 与 功 耗 图 
中 功 耗 最 高 的 区 间 相 关 ， 因 此 可 以 通过 这 种 
简单 的 方法 找 出 计算 阶段 的 开始 和 结束 ， 而 
不 需 再 与 计算 阶段 的 开始 、 结 束 时 间 相 匹配 。 
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图 14-8 由 功 耗 记录 需 脚 本 获取 的 Xeon Phi HPL 
功 耗 图 


图 14-8 的 功 耗 图 可 以 清晰 地 显示 稀 玲 矩阵 上 执行 大 量 浮 点 计算 的 阶段 ， 即 使 在 原始 的 功 耗 


记录 文件 中 也 能 清晰 地 显示 出 来 。 


为 分 析 HPC 程序 每 瓦 每 秒 的 浮 点 运算 次 数 ， 改 进 后 的 功 耗 、 温 度 记 录 需 将 使 用 标准 的 
Python 模块 ， 以 及 能 够 更 灵活 记录 数据 的 程序 结构 。 代 码 可 从 lotsofcores.com F 4X. 


14.2.3 使 用 1IPMI 进行 功 耗 分 析 


测量 服务 需 或 计算 节点 功 耗 的 一 个 方便 方法 是 使 用 常见 的 智能 平台 管理 界面 (intelligent 
platform management interface, IPMI)。 大 多 数 Intel 服务 顺 都 支持 这 一 特征 ， 从 底板 管理 探 
制 郝 获取 服务 器 的 总 AC 功 耗 。 本 节 将 使 用 开源 的 IPMI 驱动 程序 和 工具 创建 一 个 简单 的 计 


算 节 点 AC 功 耗 分 析 器 。 


首先 需要 确保 服务 器 或 计算 节点 配置 了 PMI 驱动 程序 和 工具 。 一 个 简单 的 安装 方法 是 


使 用 YUM LR, 命令 如 下 : 


$ yum install OpenIPMI OpenIPMI-tools 
$ service ipmi start 


要 确定 IPM 是 否 工 作 正 常 ， 可 以 输入 下 面 的 命令 ， 
的 传感器 数据 记录 (sensor data record, SDR): 


$ipmitool sdr 


图 14-9 显示 了 这 条 命令 的 输出 ， 如 图 所 
示 ， 用 户 可 以 通过 IPMI 访问 很 多 传感器 ， 比 
如 主机 CPU 温度、 风扇 速度 、 电 压 以 及 总 
AC 功 耗 等 。 不 仅仅 局 限于 服务 器 的 功 耗 和 
热 ， 而 是 整个 服务 器 的 健康 状况 ， 这 在 实际 
中 非常 实用 。 

输出 中 有 太 多 传 感 锅 信息 需要 整理 。 而 本 
节 的 功 耗 分 析 仅 需要 服务 器 总 功 耗 (一 些 用 户 
也 可 能 需要 主机 服务 器 CPU 热 传 感 器 数据 ): 


该 命令 查询 整个 服务 套 或 计算 节 操 


Pwr Unit Status 
Pwr Unit Redund 
IPMI Watchdog 
Physical Scrty 

FP NMI Diag Int 
SMI Timeout 


System Event Log 
System Event 
Button 

VR Watchdog 

Fan Redundancy 





图 14-9 ”典型 的 服务 器 传 感 融 数据 记录 ， 突 出 显 
示 的 部 分 为 功 耗 信息 
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$ ipmitool sensor get 'PS1 Input Power' 'PS2 Input Power' 


如 图 14-10 所 示 ， 该 命令 将 只 输出 服务 器 上 两 个 主要 电源 (PSI 和 了 PS2 ) AY AC 功 耗 。 


SSB Therm Trip 0x00 ok 
IO Mod Presence 0x00 ok 
SAS Mod Presence 0x00 ok 
BMC FW Health 0x00 ok 
System Airflow 80 CFM ok 
BB P1 VR Temp 15 degrees C ok 
Front Panel Temp 17 degrees C ok 
SSB Temp 43 degrees C ok 
BB P2 VR Temp 16 degrees C ok 
BB Vtt 2 Temp 20 degrees C ok 
BB Vtt 1 Temp 17 degrees C ok 
HSBP 1 Temp 16 degrees C ok 
Exit Air Temp 24 degrees C ok 
LAN NIC Temp 33 degrees C ok 
System Fan 1 7987 RPM ok 
System Fan 2 7987 RPM ok 
System Fan 3 8085 RPM ok 
System Fan 4 7987 RPM ok 
System Fan 5 7987 RPM ok 
PS1 Status 0x01 ok 
PS2 Status 0x09 ok 





S1 Curr Out 96 









40 unspecified 
PS2 Curr Out % 0 unspecified ok 
PS1 Temperature 19 degrees C ok 
PS2 Temperature 18 degrees C ok 
P1 Status 0x80 ok 
P2 Status 0x80 ok 
P1 Therm Margin -80 degrees C ok 
P2 Therm Margin -79 degrees C ok 
P1 Therm Ctrl 96 0 unspecified ok 
P2 Therm Ctrl 96 0 unspecified ok 
P1 ERR2 0x00 ok 
P2 ERR2 0x00 ok 
CATERR 0x00 ok 
P1 MSID Mismatch 0x00 ok 
CPU Missing 0x00 ok 
P1 DTS Therm Mgn -80 degrees C ok 
P2 DTS Therm Mgn -78 degrees C ok 
DIMM Thrm Mrgn 1 -77 degrees C ok 
DIMM Thrm Mrgn 2 -73 degrees C ok 
DIMM Thrm Mrgn 3 -76 degrees C ok 
DIMM Thrm Mrgn 4 -74 degrees C ok 
Mem P1 Thrm Trip 0x00 ok 
Mem P2 Thrm Trip 0x00 ok 
Agg Therm Mgn 1 -36 degrees C ok 
BB +12.0V 11.83 Volts ok 
BB +5.0V 4.96 Volts ok 
BB +3.3V 3.24 Volts ok 
BB +5.0V STBY 4.94 Volts ok 
BB +3.3V AUX 3.24 Volts ok 
BB +1.05Vccp P1 0.83 Volts ok 
BB +1.05Vccp P2 0.85 Volts ok 
BB «1.5 PIMEM AB 1.50 Volts ok 
BB «41.5 PIMEM CD 1.50 Volts ok 
BB «1.5 P2MEM AB 1.50 Volts ok 


图 14-10 ”服务 器 输入 功 耗 传 感 需 以 及 功 耗 限制 
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BB +1.5 P2MEM CD 
BB +1.8V AUX 

BB +1.1V STBY 

BB +3.3V Vbat 

BB +3.3 RSR1 PGD 
BB +3.3 RSR2 PGD 


1.48 Volts 
1.77 Volts 
1.08 Volts 
3.21 Volts 
3.23 Volts 
3.03 Volts ok 


Sensor ID 

Entity ID 

Sensor Type (Analog) 
Sensor Reading 
Status 

Upper Non-Critical 


Upper Critical 


Sensor ID 

Entity ID 

Sensor Type (Analog) 
Sensor Reading 
Status 

Upper Non-Critical 
Upper Critical 


PS1 Input Power (0x54) 
10.1 

Other 

332 (+/- 0) Watts 

ok 

868.000 

920.000 


PS2 Input Power (0x55) 
10.2 

Other 

0 (+/- 0) Watts 

ok 

868.000 

920.000 





图 14-10 (£x) 


读者 可 能 注意 到 了 其 中 一 个 目标 服务 器 中 电源 的 功 耗 为 0W。 这 个 输出 很 正常 ， 因 为 这 
是 一 个 双 电 源 服务 器 ， 在 当前 工作 负载 条 件 下 ， 仪 需要 一 个 电源 为 服务 器 供电 。 

在 HPC 应 用 程序 的 计算 阶段 ， 用户 可 以 使 用 简单 的 脚本 发 射 IPMI 命 令 查 询 电 源 功 耗 ， 
并 加 上 时 间 戳 ， 将 这 些 输出 信息 记录 到 文件 中 ， 即 可 通过 后 期 处 理 计 算出 程序 运行 阶段 的 平均 
功 耗 。 前 面 提 到 的 协 处 理 器 功 耗 和 热 监控 脚本 也 可 用 于 采集 服务 器 或 计算 节点 的 总 AC 功 耗 。 


14.3 ”基于 硬件 的 功 耗 分 析 方 法 


本 章 已 经 通过 示例 展示 了 如 何 使 用 Intel MPSS 工具 以 及 如 IPMI 这 类 工业 界 标准 工具 来 
创建 简单 的 功 耗 分 析 器 ， 分 析 和 估算 每 瓦 每 秒 的 浮 点 运算 次 数 。 如 果 编 写 HPC 程序 的 软件 
开发 者 想 查看 系统 工作 的 能 效 ， 这 些 工 具 会 非常 有 用 。 

然而 ， 知 要 以 非 侵 入 式 的 方式 测量 功 耗 ( 即 在 被 测量 设备 上 没有 额外 的 软件 负载 )， 用 
户 需要 使 用 基于 硬件 的 功 耗 分 析 方 法 。 有 几 种 不 同 的 方法 可 以 完成 这 项 工作 ， 但 本 节 将 介绍 
Green 500 采用 的 其 中 几 种 测量 方法 ， 以 及 基于 硬件 功 耗 分 析 中 一 些 特殊 任务 的 解决 方法 。 

测量 HPC 集群 总 功 耗 的 方法 之 一 是 使 用 电源 分 配 单 元 (power distribution unit, PDU). 
这 些 设备 的 外 形 类 似 AC 电源 插 排 ， 内 租 有 功 耗 测量 功能 ， 在 测量 集群 功 耗 中 很 有 用 。 在 实 
际 使 用 中 ， 很 多 PDU ARA Web 服务 器 ， 管 理 员 或 用 户 可 以 远程 监控 在 HPC 集群 负载 下 的 
瞬时 功 耗 。 这 些 智 能 的 PDU 可 以 与 简单 网 络 管理 协议 (simple network management protocol, 
SNMP) X Python 脚本 一 起 使 用 ， 以 创建 集群 级 别 的 功 耗 记 录 器 。 使 用 PDU 作为 功 耗 分 析 
需 的 优势 之 一 是 所 有 机 架 上 的 设备 功 耗 都 将 被 获取 ， 包 括 结构 (交换 器 )， 和 否则 没有 简单 的 
方法 能 获取 结构 的 AC 功 耗 。 数 据 中 心机 架 上 所 有 硬件 设备 一 般 都 从 PDU 获取 电能 ， 所 以 
用 户 可 以 及 时 通过 智能 PDU 获取 任意 时 刻 的 功 耗 。 图 14-11 是 一 个 典型 的 PDU。 

另 一 种 计算 节点 级 基于 硬件 的 功 耗 分 析 方 法 是 使 用 AC 功 耗 分 析 器 。 这 些 设备 连接 在 
AC 电源 插 槽 和 负载 (服务 副 和 计算 节点 ) 之 则 。 这 些 AC 功 耗 分 析 器 也 可 以 非 侵 入 式 地 测 
量 功 耗 ， 不 会 影响 被 测量 系统 上 的 任何 软件 线程 ， 用 户 不 会 希望 计算 节点 使 用 计算 资源 记录 
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自身 的 功 耗 数据 。 通 过 使 用 非 侵 和 人 式 测量 方法 ， 用 户 可 将 测量 和 记录 的 工作 运行 在 其 他 系统 
上 ,该 系统 通过 发 出 SNMP fI GPIB 命令 获 ——— 
取 和 记录 功 耗 数据 以 供 后 期 处 理 。 NIE EGO. 


基于 硬件 的 协 处 理 器 功 耗 分 析 方 法 


本 章 最 后 一 个 内 容 是 使 用 基于 便 件 的 协 
处 理 需 功 耗 分 析 和 需 对 被 测试 的 HPC 系统 非 侵 








入 式 地 执行 高 级 分 析 。 该 方法 使 用 PCIe di aes 
A ix Fl il ez FR BH, LÀ 2 National Instruments s -— — 
LabVIEW Signal Express 软件 包 来 实时 抽样 图 14-11 一 个 典型 的 PDU 


和 执行 协 处 理 需 功 耗 分 析 。 

图 14-12 展示 了 本 章 使 用 的 基于 硬件 的 功 耗 分 析 器 ， 该 分 析 器 使 用 标准 的 、 现 成 的 组 件 
(PCIe ffi A. 2818 H] Adex Electronics 公司 的 产品 ) 以 及 National Instruments LabVIEW 软件 。 这 
种 配置 可 以 非常 高 的 频率 抽样 功 耗 数据 (每 秒 25000 个 采样 值 )， 精 度 也 很 高 (24 位 ADC). 
这 种 方法 基于 PCIe 插 人 器 读 取 PCIe Express 的 功 耗 (PCIe 3.3 V 和 PCIe 12 V) 以 及 外 部 2x3 
和 2x412V 补充 电源 轨 的 测量 电阻 。 用 户 只 需 简 单 地 将 原始 电压 、 电 流 信号 输入 给 数据 采 
集 器 单元 ,LabVIEW 即 可 进行 抽样 来 计算 协 处理 器 的 瞬时 功 耗 。 图 14-13 显示 了 用 LabVIEW 
进行 测量 并 记录 功 耗 的 示例 。 
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图 14-12 一 个 Xeon 


图 14-13 的 功 耗 截图 反映 了 当 增 加 一 个 HPC 工作 负载 所 使 用 的 协 处 理 器 内 核 数 量 时 ， 
功 耗 增长 与 活跃 内 核 数 增加 有 怎样 的 线性 关系 。 图 中 的 水 平 轴 表 示 时 间 ， 竖 直 轴 表示 以 瓦 为 
单位 的 功 耗 ， 原 始 的 功 耗 数据 以 $ kHz 频率 抽样 ， 使 用 LabVIEW 实时 计算 1 秒 移动 平均 值 
(使 用 软件 中 的 有 限 脉冲 响应 滤波 器 )， 在 HPC 负载 运行 过 程 中 产生 了 这 幅 图 。 这 种 方法 的 
最 大 优势 是 用 户 在 执行 高 级 的 功 耗 分 析 时 不 必要 求 处 理 器 或 协 处 理 器 进行 计算 或 数据 记录 。 
所 有 的 硬件 线程 均 可 用 来 运行 HPC 工作 负载 。 
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图 14-13 ”使 用 LabVIEW 测量 的 协 处 理 器 总 功 耗 


用 户 在 统计 功 耗 时 需要 考虑 全 部 4 个 电源 轨 输 入 Intel Xeon Phi HAIEZ JRE (一 共 
300 W TDP)， 如 图 14-14 所 示 。 














PCIe 3.3V 和 了 PCIe 12V 可 以 通过 PCIe |. PClExpress33 | ii mp xm ! 
插入 器 进行 抽样 ，2x3 和 2x4 补 充电 源 可 以 
2x3 补充 电源 轨 


通过 将 标准 测量 电阻 连接 到 协 处 理 硕 输入 电 
源 进 行 采样 。 本 例 中 PCIe 插入 顺 使 用 10 mg 图 14-14 协 处 理 器 所 有 输入 电源 轨 

检测 电阻 ，2 x3 和 2x4 的 补充 12V 电源 使 

用 耐用 的 25 mg 测量 电阻 。 这 4 个 电源 轨 的 原始 功 耗 数据 如 图 14-15 Pitan. 

图 14-15 展示 了 协 处 理 带 实时 瞬时 功 耗 ， 每 秒 有 数 千 次 抽样 。 图 中 将 PCIe 3.3V 和 PCIe 
12V 合并 为 一 个 总 的 PCIe 功 耗 ， 将 此 功 耗 与 2x3 和 2x4 的 补充 12V 电源 相 加 得 到 截图 
上 部 所 示 的 总 功 耗 。 这 些 数据 也 将 被 LabVIEW 保存 下 来 以 备 对 原始 数据 进行 后 期 处 理 。 
LabVIEW 也 可 给 出 文本 格式 的 功 耗 数 据 统计 信息 ， 如 图 14-16 所 示 。 

图 14-16 展示 了 LabVIEW 能 够 给 用 户 提供 的 统计 信息 ， 包 括 最 小 值 、 最 大 值 和 平均 
值 。 需 要 注意 的 是 ，PCIe 3.3V 辅助 电源 显示 的 是 无 实际 功 耗 ， 因 为 协 处 理 器 并 不 会 从 PCIe 
3.3V 辅助 电源 获取 电能 ，PCIe 3.3V 是 为 网 卡 预 留 的 ， 为 网 卡 提供 待机 供电 以 便 有 事件 时 被 

本 节 使 用 了 上 文 介 绍 的 基于 硬件 的 功 耗 分 析 需 来 确保 本 章 开 头 提 到 的 基于 软件 的 功 耗 
分 析 器 的 置信 区 间 在 可 接受 的 范围 内 。 做 这 种 相关 性 测试 需要 确保 计算 总 功 耗 的 方法 相同 。 
Intel MPSS micsme 工具 采集 板 上 SMC 的 功 耗 数据 ， 并 在 内 部 用 1 秒 移 动 平均 法 计算 出 功 
耗 。 本 章 在 LabVIEW Signal Express 中 也 采用 1 秒 移动 平均 计算 测量 区 间 的 功 耗 ， 以 便 进行 
对 等 的 比较 。 在 本 章 的 配置 中 ， 基 于 人 硬件 的 功 耗 分 析 天 通常 得 到 稍 高 的 总 卡 功 耗 (4 一 6 W), 
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这 是 因为 SMC 不 监控 PCIe 3.3V 电源 轨 ， 只 监控 12V 电源 轨 (PCIe 12V, 2x3 和 2x4)。 
LabVIEW Signal Express 的 数据 记录 特征 可 以 通过 未 加 工 的 文本 或 以 科学 计数 法 表示 的 功 耗 
数据 提供 给 用 户 非常 精确 的 原始 功 耗 数据 ， 以 备 进一步 的 后 期 处 理 。 
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14.4 总结 


因为 功 耗 已 经 成 为 非常 重要 的 制约 因素 ， 所 以 本 章 讨论 了 使 用 软件 工具 及 侧 单 脚本 来 测 
量 和 分 析 协 处 理 需 功 耗 的 几 种 关键 方法 。 

本 章 也 展示 了 如 何 使 用 非 侵 入 式 功 耗 测量 方法 使 功 耗 分 析 和 记录 工作 运行 在 专门 的 服务 
人 上， 而 将 计算 语 点 的 所 用 人 硬件 线 程 用 于 运行 实际 HPC 工作 负载 。 这 种 方法 也 有 助 于 验证 
更 简单 更 方便 的 软件 方法 可 以 作为 理解 执行 工作 负载 时 功 耗 的 可 靠 、 精 确 方法 ,但 是 软件 方 
法 不 能 测量 待机 功 耗 。 

能 够 使 用 软件 方法 对 运行 中 的 HPC 系统 进行 准确 的 功 耗 和 热 测 量 对 用 户 来 说 是 很 幸运 
的 。 根 据 本 章 在 Intel 实验 室 进 行 的 基于 硬件 的 功 耗 分 析 ， 基 本 上 证 明了 软件 方法 的 可 信和 性 。 


14.5 更 多 信息 
下 面 是 本 章 推荐 的 一 些 额 外 阅读 材料 : 


e Intel Xeon Phi ™ coprocessor: Datasheet. http://www.intel.com/content/www/us/en/processors/ 
xeon/xeon-phi-coprocessor-datasheet.html. 

e Intel® Xeon Phi ™ System Software Developer’ s Guide. http://www.intel.com/content/ 
dam/www/public/us/en/documents/product-briefs/xeon-phi-coprocessor-system-software- 
developers-guide.pdf. 

e Green 500 Methodology. http://www.green500.org/docs/pubs/RunRules Verl.0.pdf. 


Intel IPMI Site. http://www.intel.com/content/www/us/en/servers/ipmi/ipmi-home.html. 


本 章 及 其 他 章 代 码 下 载 地 址 http://lotsofcores.com. 
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High Performance Parallelism Pearls: Multicore and Many-core Programming Approaches 


集成 Intel Xeon Phi 协 处 理 需 至 集群 环境 





Paul Peltz , Troy Baer , Ryan Braby , Vince Betro , Glenn Brook , Karl Schulz! 
“美国 ， 田 纳西 大 学 诺 克 斯 维尔 分 校 、NICS; ‘XH, Intel 公司 


15.1 早期 探索 


田纳西 大 学 和 橡树 岭 国 家 实验 室 共同 管理 着 联合 计算 科学 研究 所 (JICS)。2007 年 JICS 
的 Kraken 项 目 获 得 了 国家 科学 基金 (NSF) 奖 ， 并 因此 建立 了 计算 科学 国家 研究 院 (NICS). 
2011 年 年 初 ，NICS 和 Intel 达成 了 多 年 的 战略 合作 关系 ， 以 寻求 基于 Intel 集 成 众 核 架构 
(Intel MIC， 目 前 正式 更 名 为 Intel Xeon Phi 产品 系列 ) 的 下 一 代 高 性 能 计算 (HPC) 解决 方 
案 。 为 了 回报 NICS A Intel 所 提供 的 应 用 测试 、 性 能 测试 结果 和 专家 反馈 ，Intel 让 NICS 所 
前 接触 了 Intel MIC 技术 。 由 此 产生 的 合作 关系 ， 让 JICS 内 部 的 午 越 应 用 程序 加 速 中 心 可 以 
在 未 发 行 的 产品 Knights Ferry ( KNF) 的 软件 开发 平台 上 进行 软件 性 能 测试 和 开发 。 把 平台 
连接 在 一 起 后 形成 了 Intel 外 部 首 个 配备 有 Intel MIC 技术 的 集群 。 此 后 不 久 ，NICS Intel 
与 Cray 公司 一 起 部 署 一 个 双 节 点 的 类 似 “封装 集群 ”的 Cray CX] 超级 计算 机 ， 其 中 每 个 证 
点 上 配 有 一 个 KNF 协 处 理 器 。 之 后 ， 又 与 计算 机 系统 生产 商 Appro 一 起 部 和 署 了 包含 4 个 市 
点 的 常规 集群 ， 其 中 每 个 节点 配备 两 个 KNF 协 处 理 需 。 

在 2011 年 的 高 性 能 计算 、 网 络 、 存 储 和 分 析 国 际 年 会 (SCIL) E, NICS 和 Intel 宣布 
战略 合作 关系 ,并 且 NICS 发 布 了 其 科技 应 用 方面 的 早期 成 果 ， 即 将 科技 应 用 移植 到 Intel 
MIC 架构 上 。 其 中 小 及 的 主要 科学 应 用 代码 包括 NWChem 和 Enzo， 以 及 电子 结构 代码 Elk 
和 一 个 内 部 的 Boltzmann 计算 流体 动力 学 解 算 器 等 。 在 报告 中 ，NICS 给 出 了 这 些 应 用 的 移 
植 状态 信息 及 部 分 性 能 数据 。 报 告 的 公告 和 视频 见 15.12 节 。 

JICS 在 KNF 协 处 理 器 上 完成 的 前 期 工作 进一步 扩展 为 Beacon 项 目 ， 该 项 目 目前 由 美 
国 国 家 科学 基金 会 和 田纳西 大 学 资助 ， 用 于 探索 Intel Xeon Phi 协 处 理 需 在 计算 科学 和 工程 
应 用 上 的 效果 。 


15.2 Beacon 系统 的 历史 


最 初 的 战略 合作 伙伴 关系 扩展 到 了 Beacon 项 目 ， 并 在 2012 年 开始 成 为 由 NSF 资助 
(编号 1137097 ) 的 网 络 基础 设施 战略 技术 。 提 出 的 系统 是 由 通过 单个 FDR 无 限 市 宽 技 术 转 
换 器 互 连 的 16 节点 所 组 成 的 集群 ， 每 个 节点 配置 有 两 个 未 产品 化 的 KNF 协 处 理 右 。 这 是 一 
个 比较 小 的 集群 ， 预 期 会 非常 易于 部 署 和 管理 。 但 是 ，KNF 卡 的 操作 系统 软件 尚未 计划 用 
于 无 盘 NFS 根 安 装 。 因 此 ， 需 要 选用 其 他 方法 ， 而 不 能 采用 NICS 提出 的 基于 无 盘 NFS 根 
的 集群 管理 方法 。 

早期 用 户 〈 包 括 田 纳西 大 学 以 外 的 用 户 ) 将 代码 移植 至 协 处 理 需 后 ， 能 够 获得 显著 的 性 
能 提升 。Beacon 项 目 也 包括 了 从 KNF 到 代号 为 Knights Corner (KNC) 的 协 处理 融 产品 的 
升级 。Beacon 项 目 非常 成 功 ， 以 至 于 田纳西 大 学 决定 给 出 超出 原 计 划 投 资 数目 的 资金 ,使 
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得 Beacon 项 目 可 以 部 效 更 大 的 和 更 高 功 耗 效率 的 集群 。 

这 种 新 的 、 升 级 的 Beacon 超级 计算 机 迅速 部 署 完 成 。 它 包含 48 个 Cray CS300-AC 
W (Appro 公司 的 Greenblade 节点 ， 随 后 ，Appro 被 Cray 收购 )， 每 个 节点 有 两 个 Intel 
Xeon ES 处 理 枯 和 4 个 Intel Xeon Phi 协 处 理 器 。 来 自 Intel, Appro Al NICS 等 世界 各 地 的 
团队 参与 到 这 个 项 目 中 。 项 目的 主要 任务 是 完成 集群 构建 、 系 统 调 整 ， 并 且 及 时 执行 高 性 能 
测试 软件 包 的 Linpack， 以 参与 Green500 的 评选 。 最 后 ，Beacon 获得 了 SC12 Green500 的 
第 一 名 。 会 议 结束 后 ， 参 与 了 这 个 项 目的 Intel 研究 员 Pradeep Dubey 说 :“ 这 是 我 在 Intel 的 
工作 中 最 里 越 的 一 次 合作 经 历 ”( 见 图 15-1). 

A HE] NSF 的 研究 人 员 正 在 用 Beacon 来 优化 应 用 程序 ， 使 它们 能 够 充分 利用 Intel Xeon 
Phi 协 处 理 各 和 未 来 高 度 并 行 染 构 的 高 度 并 行 能 力 。i SSM 15.12 节 ， 以 获取 更 多 关于 
Green500 和 Pradeep Dubey 博客 的 信息 。 


15.3 Beacon 系统 的 架构 
15.3.1 硬件 环境 


Beacon 是 一 个 Cray CS300-AC 集群 ， 由 通过 FDR 无 限 市 宽 技 术 互 连 的 48 Tl $E 
和 6 个 UO 节点 组 成 。 每 个 计算 节点 包含 两 个 8 核 Intel Xeon E5-2670 4h Elige, 256GB Am. 
960GB SSD 存储 ， 以 及 4 个 Intel XeonPhi 5110P 协 处 理 器 。 总 体 而 言 ，Beacon 总 共有 768 
^W MAE. 11520 个 协 处 理 融 ，12TB 系统 存储 ，1.5TB 协 处 理 需 存储 ， 以 及 超过 73TB 的 
SSD 存储 。 其 中 ，11520 个 协 处 理 带 提供 了 超过 210TFLOPS 的 计算 能 力 。Beacon 支持 两 种 
以 太 网 网 络 : 一 种 是 专用 内 部 网 ， 另 一 种 是 用 于 外 部 系统 管理 的 网 络 。 


15.3.2 ”软件 环境 


在 撰写 本 书 时 ，Beacon ERAH Intel 众 核 平 台 软 件 栈 (Intel MPSS) 的 版 本 是 3.2.3。 
Intel 提供 的 Intel MPSS 文档 和 相关 的 工具 提供 了 在 工作 站 和 “ vanilla” 集 群 环境 下 的 安装 
支持 。 但 是 在 具有 广泛 用 途 的 HPC 集群 (如 Beacon) 下 ， 扩 展 和 个 性 化 定制 协 处 理 器 的 安 
装 仍 然 存 在 很 多 独特 的 挑战 。 本 章 重 点 介绍 了 在 已 有 集群 上 完成 像 集成 这 样 的 关键 步骤 的 方 
法 。 需 要 注意 的 是 ， 本 章 作 者 假设 读者 已 经 熟悉 Intel 提供 的 readme 和 用 户 指 南 ， 因 为 作者 
将 引用 其 中 的 参考 工具 和 配置 。Intel MPSS 的 下 载 和 参考 指南 链接 见 15.12 节 。 

作者 认为 有 几 个 系统 管理 工具 对 于 正确 地 部 署 和 维护 集群 非常 必要 。 其 中 一 个 最 重要 
的 工具 是 配置 管理 器 ， 如 Puppet. Chef, Salt 或 者 Ansible。 这 几 个 工具 都 很 好 用 ，NICS 
选择 使 用 Puppet。 使 用 配置 管理 硕 有 很 多 好 处 ， 其 中 最 主要 的 原因 是 在 调用 Intel MPSS 的 
micctrl 实用 程序 后 恢复 配置 文件 。 配 置 管理 器 也 可 以 用 于 将 Intel MPSS 配置 文件 分 发 到 
集群 中 所 有 的 计算 节点 。 作 者 还 建议 安装 集群 资源 和 工作 负载 管理 器 ， 以 管理 用 户 的 作业 调 
度 。 大 多 数 通用 集群 会 使 用 一 个 作业 调度 工具 ， 而 Beacon 则 同时 使 用 TORQUE 和 Moab. 
对 于 每 个 单独 作业 的 Intel Xeon Phi 协 处 理 顺 环境 的 管理 部 署 ，TORQUE 或 者 类 似 的 资源 管 
理 器 很 重要 。15.5 节 会 对 这 部 分 内 容 进 行 更 加 详细 节 的 讨论 。 用 一 个 工具 来 管理 用 户 环境 也 
非常 必要 ， 可 以 用 modules 或 LImod。 作 者 在 本 草 中 提 到 的 最 后 一 个 工具 是 pdash， 这 是 一 
个 多 线程 远程 shell 客户 端 ， 它 可 以 在 远程 主机 上 并 行 地 执行 命令 。 本 节 提 到 的 工具 的 相关 
链接 参见 15.12 节 。 
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15.4 Intel MPSS 安装 步骤 


Beacon IJ TE St AEA ER Cdiskful), MREP Intel MPSS 栈 的 安装 信息 也 基于 
RY. ARRIETA D ERE I BUERR TE T EESTI PER SEHR] Eg. DOM ACA 
员 而 言 无 疑 是 一 个 挑战 ， 因 为 可 能 出 现 节点 间 的 配置 和 软件 程序 包 不 同步 的 情况 。 例 如 ， 如 果 
一 个 节点 必须 脱 机 进行 夏 件 调整 ， 而 此 时 其 他 节点 恰巧 需要 更 改 配置 或 者 软件 程序 包 。 如 果 这 
次 更 改 不 是 通过 配置 软件 而 是 手动 完成 的 ， 那 么 节点 间 的 配置 可 能 就 会 略 有 不 同 。 无 盘 的 NFS 
根 文 件 系统 可 以 解决 这 个 问题 。 在 每 次 节点 重新 局 动 时 都 从 单个 系统 映像 启动， 这 样 所 有 节点 
具有 完全 相同 的 操作 系统 映像 。Beacon 最 初 开 展 了 只 读 NFS 根 文 件 系统 映像 在 节点 上 的 部 署 ， 
但 是 由 于 时 间 限 制 和 Intel MPSS 早期 版 本 的 技术 限制 ,我 们 没有 来 得 及 在 Beacon 上 实现 无 盘 
根 。 计 算 节 点 的 IP 地 址 也 设置 为 静态 的 ， 以 简化 协 处 理 需 配置 文件 的 管理 。 


15.4.1 系统 准备 


《MPSS 3.2.3 用 户 指南 》 的 第 19 节 为 如 何在 集群 上 安装 Intel MPSS 栈 提 供 了 一 些 建议 ， 
但 未 提 及 对 于 HPC 集群 存在 的 一 些 特定 问题 。 可 以 在 15.12 节 中 获取 Intel MPSS 软件 和 文档 
的 链接 。 在 使 用 本 章 中 提供 的 脚本 和 工具 前 ， 需 要 在 集群 做 一 些 准备 工作 。 如 果 读 者 在 集群 
上 使 用 的 是 动态 主机 配置 协议 ， 那么 需要 进行 静态 IP 地 址 配置 ， 而 不 能 使 用 动态 IP 地 址 池 ， 
以 确保 每 个 主机 和 协 处 理 器 都 绑 定 了 固定 的 下地 址 。 下 面 所 示 的 结构 化 的 /etc/hosts X 
件 对 于 Intel MPI 库 和 脚本 的 运行 非常 必要 。 在 本 章 假设 性 的 例子 中 ,我 们 选择 私有 子 网 中 
一 段 连续 的 IP 地 址 范围 ， 其 中 一 个 IP 地 址 对 应 一 个 主机 的 eth0 接口 ， 另 外 两 个 的 IP 地 址 
映射 到 安装 在 主机 上 的 两 个 协 处 理 器 上 。 在 Beacon 中 ， 每 个 计算 节点 上 有 4 个 IP 地 址 分 别 
关联 到 4 个 协 处 理 融 上 。 请 注意 ， 如 果 需 要 ， 这 些 脚 本 很 容易 修改 ， 以 引用 不 同 的 文件 ， 而 
不 引用 /etc/hosts, 但 是 ,在 协 处 理 右 上 存放 一 样 的 /etc/hosts 文件 也 是 可 取 的 。 如 
果 hosts 文件 放置 在 /var/mpss/common/etc/ 目录 下 ,那么 协 处 理 咒 将 在 协 处 理 器 的 文 
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件 系统 中 引导 ,并 用 这 个 文件 覆盖 /etc/hosts 文件 。 请 参阅 《 MPSS 用 户 指南 》 了 解 协 
处 理 器 的 /var/mpss 配置 目录 如 何 工作 ( 见 图 15-2) 的 更 多 详细 信息 。 
node001 node001-eth0 


node001-micO 
node001-micl 


node002 node002-etho 
node002-micO 
node002-mici 





图 15-2 /etc/hosts 示例 文件 


直接 ssh 访问 该 协 处 理 需 需要 ssh 密 钥 。 请 参阅 《 MPSS 用 户 指 南 之 RSA/ DSA 密 钥 生 
成 》 的 第 19.2 节 以 了 解 如 何 生 成 这 些 文件 ， 以 便 将 它们 分 发 到 各 个 协 处 理 器 。 

如 果 集 群 使 用 Infiniband 架构 以 达到 高 速 互 连 ， 那 么 需要 在 集群 上 安装 OpenFabrics 企 
业 分 发 (OFED) 软件 栈 。 在 撰写 本 书 时 ，Intel 提供 了 两 个 OFED 可 用 版 本 : 1.5.4.1 和 3.5- 
1-MIC。 版 本 1.5.4.1 是 于 2012 年 2 月 发 布 的 ， 所 以 它 是 OFED 非常 老 的 一 个 分 支 。 这 也 是 
Intel-MPSS 栈 从 首次 公开 发 行 以 来 一 直 支 持 的 版 本 。 昌 然 Intel 在 MPSS 栈 中 仍 为 1.5.4.1 版 本 
提供 驱动 程序 和 库 支 持 ， 但 是 Intel MPSS FRAY 3.2 版 本 添加 了 对 新 一 代 3.5-1-MIC 版 本 的 支 
持 。 这 是 官方 的 OFED 3.5 版 本 的 分 支 ， 其 中 包含 了 对 Intel MIC 架构 的 主机 端 扩展 支持 。 根 
据 所 安装 的 版 本 ， 会 有 不 同 的 安装 说 明 。 从 《MPSS 用 户 指南 》 的 第 2 节 可 以 获取 更 多 信息 。 

注意 : 对 于 版 本 1.5.4.1， 需 要 安装 OFED 栈 和 $ MPSS LOCATION/ ofed/ 目录 下 的 
RPM。 如 果 安 装 了 新 的 3.5-1-MIC 版 本 ， 则 仅 需 要 安装 OFED 栈 ，$MPSS STACK /ofed/ A 
录 下 的 RPM 文件 不 用 再 安装 。 


15.4.2 Z4 Intel MPSS $È 


在 Beacon 系统 上 安装 Intel MPSS 栈 时 ， 需 要 先 下 载 并 解 包 Intel MPSS 文件 到 一 个 共享 
的 目录 ， 如 NFS 共 至 目录 ， 这 样 它 就 可 以 被 所 有 计算 节点 所 访问 。 在 撰写 本 书 时 ，3.2.3 是 最 
新 的 可 用 版 本 ， 因 此 本 章 的 安装 和 配置 说 明 也 将 基于 这 个 版 本 ， 但 之 后 的 3.X 版 本 应 该 都 是 
类 似 的 。 默 认 情 况 下 ，Intel MPSS 假设 你 正在 使 用 的 是 Red Hat 公司 的 Linux 发 行 版 ( RHEL) 
或 者 CentOS 任意 版 本 的 标准 内 核 。 例 如 ， 如 果 从 网 上 下 载 RHEL/ CentOS-6.2 版 本 的 Intel 
MPSS 3.2.3 包 ， 那 么 它 的 Intel MPSS 驱动 程序 会 与 RHEL/ CentOS 6.2 之 前 版 本 的 内 核 不 相 
容 。 但 是 新 的 Intel MPSS 会 将 所 有 OS 发 布 版 本 打包 到 一 起 。 在 RHEL/CentOS 6.2 内 核 中 的 
内 核 版 本 是 2.6.32-220。 这 一 版 本 内 核 中 存在 安全 漏洞 ， 管 理 员 需 要 使 用 补丁 来 保证 集群 安 
全 。Intel MPSS 为 主机 驱动 (和 OFED 内 核 模块 ) 提供 了 用 于 针对 新 的 内 核 版 本 进行 重建 的 
RPM。 下 面 重点 介绍 的 示例 包含 了 从 源 代码 ( 见 图 15-3 ) 构建 主机 协 处 理 器 驱动 程序 的 步骤 。 


1) Ensure the prerequisites are installed: 
> sudo yum install kernel-headers kernel-devel 


2) Regenerate the Intel(R) MPSS driver module package: 
> cd $MPSS LOCATION/src/ 


> rpmbuild --rebuild \ mpss-modules-*.el6.src.rpm 


Copy the mpss-modules binary RPM from the 
SHOME/rpmbuild/RPMS/x86 64 directory to $MPSS LOCATION 
(overwriting the mpss-modules binary RPM that was 
provided with the precompiled driver). 





图 15-3 ”内 核 重建 指令 
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准备 工作 结束 后 ， 通 过 图 15-4 中 的 指令 ， 使 用 pdash 工具 为 所 有 计算 节点 安装 Intel 
MPSS 包 。 


sudo pdsh -w cluster\ [xxx-xxx\] yum -y install \ 
--nogpgcheck -noplugins -disablerepo-* 


$MPSS LOCATION/*.rpm 





图 15-4 Intel MPSS 安装 指令 


另外 ， 还 可 以 直接 使 用 yum 安装 。 根 据 所 采用 的 基础 配置 管理 策略 ，Intel MPSS 的 
RPM 也 可 以 集成 到 一 个 计算 设备 并 在 配置 管理 系统 的 文 持 下 直接 分 发 。 

为 了 支持 群集 上 分 布 式 协 处 理 需 之 间 的 “对 称 ”MPI 通信， 需要 安装 相关 的 Intel MPSS 
OFED 包 。 如 果 OFED-1.5.4.1 包 已 在 计算 节点 上 安装 了 ， 也 有 必要 通过 padsh 或 配置 管理 
at 2c Intel MPSS OFED RPM, 注意 ， 和 主机 的 Intel MPSS 协 处 理 咒 驱动 程序 类 似 ， 如 果 
使 用 该 Intel MPSS 版 本 不 支持 的 内 核 ， 则 OFED 内 核 模块 将 需要 重建 。 重 建 过 程 可 以 通过 
SMPSS LOCATION/src/ 目录 下 的 命令 ( 见 图 15-5 ) 完成 。 


rpmbuild --rebuild ofed-driver-*.src.rpm 


图 15-5 OFED RPM 重建 指令 


RPM 可 以 从 SHOME/rpmbuild/RPMS/x86 64/ 目录 下 复制 到 SMPSS LOCATION/ 
ofed/ 目录 下 。 旧 的 OFED 内 核 模块 的 RPM 应 该 移 至 其 他 目录 ， 避 免 两 个 版 本 同时 安装 。 
就 像 前 面 提 到 的 ， 如 果 使 用 OFED 3.5 系列 则 不 需要 重建 OFED 驱动 程序 。 

最 后 一 步 是 检查 是 否 需 要 更 新 Intel Xeon Phi 协 处 理 器 的 固件 。MPSS 用 户 指 南 描述 了 
使 用 提供 的 micflash 包 更 新 固件 的 过 程 。 


15.4.3 ”生成 和 定制 配置 文件 


Intel 提供 的 micctrl 命令 可 以 完成 很 多 事情 ， 以 创建 配置 文件 和 管理 协 处理 器 。 正 如 
前 面 所 提 到 的 ， 此 命令 提供 的 默认 配置 可 用 于 快速 完成 一 台独 立 主 机 或 工作 站 环境 的 设置 。 
对 于 群集 环境 ， 经 常 需 要 将 micctrl、 本 地 基于 脚本 的 定制 和 配置 管理 系统 相 结 合 ， 来 完 
成 集成 和 部 署 过 程 。 下 面 的 内 容 摘 述 了 在 Beacon 上 实现 的 特定 方法 。 

如 果 读 者 是 首次 安装 或 正在 使 用 一 个 新 的 Intel MPSS 
版 本 ， 那 么 在 开始 的 时 候 ， 需 要 通过 图 15-6 中 所 提供 sudo micctrl --cleanconfig 
的 指令 在 特定 的 计算 节点 上 生成 Intel MPSS 配置 文件 。 sudo micctrl --initdefaults 

Intel MPSS 3.2.3 中 的 micctrl 实用 程序 将 自动 扫 图 15-6 micctrl 命令 
摘 本 地 主机 上 的 所 有 可 用 用 户 ， 以 建立 协 处 理 器 ssh 25 
钥 访 问 。 然 而 ， 为 了 与 资源 管理 器 相 协调 ， 许 多 HPC 
站 点 需要 管理 协 处 理 器 的 ssh 访问 。 使 用 图 15-7 中 给 

- 图 15-7 micctrl 命令 

出 的 附加 命令 ， 可 以 将 默认 的 配置 改 为 只 提供 最 少数 
目的 协 处 理 需 管理 员 用 户 。 

由 上 述 命令 生成 的 文件 将 用 作 每 个 节点 的 模板 一 一 不 同 节点 的 MPSS 配置 文件 在 网 络 配 
置 上 会 稍 有 不 同 。 首 先 ， 将 文件 /etc/mpss/default.conf 和 /etc/mpss/mic0.conf 
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复制 到 一 个 位 置 ， 如 /ect。 在 这 个 目录 下 运行 图 15-8 中 提供 的 mic-create-conf.sh H 
本 ， 以 产生 特定 主机 配置 文件 。 


#!/bin/bash 
### Script to create /etc/mpss/mic*.conf 
### Currently setup for MPSS 3.2 


if [ -d /sys/class/mic ] 
then 
for MICN in $( cd /sys/class/mic ; echo mic* ) 
do 
rm $(grep ${HOSTNAME}-${MICN} /etc/hosts | awk 
' {print $1}') 
HOSTIPADDR=$ (grep ${HOSTNAME}-eth0 /etc/hosts | awk 
' {print $i }*) 
if [ -n "S$MICN" -a -n "SMICIPADDR" -a -n 
"SHOSTIPADDR" ] 
then 
# generate /etc/mpss/default.conf files 
cat /etc/default.conf.template | sed 
"S/HOSTIPADDR/SHOSTIPADDR/g" » /tmp/default.conf 
delta=$(diff -u /tmp/default.conf 
/etc/mpss/default.conf | wc -1) 
if [ -n "$delta" -a $delta -gt 0 ] 
then 
cp /etc/mpss/default.conf /tmp/default.conf.bak 
cp /tmp/default.conf /etc/mpss/default.conf 
fi 
# generate /etc/mpss/micN.conf files 
cat /etc/micN.conf.template | sed 
"S/NODE/SHOSTNAME/g" sed "s/HOSTIPADDR/SHOSTIPADDR/g" | 
sed "s/MICN/SMICN/g" sed "s/MICIPADDR/SMICIPADDR/g" > 
/tmp/${MICN}.conf 
delta=$(diff -u /tmp/${MICN}.conf 
/etc/mpss/${MICN}.conf | we -1) 
if [ -n "$delta" -a $delta -gt 0 ] 
then 
cp /etc/mpss/${MICN}.conf sn erra .conf .bak 
cp /tmp/${MICN}.conf /etc/mpss/${MICN}.conf 





图 15-8 mic-create-conf.sh 脚本 


在 集群 环境 下 ， 可 以 将 协 处 理 需 作为 网 络 拓扑 的 一 部 分 并 且 通 过 TCP / IP 完成 协 处 理 需 
与 协 处 理 需 间 的 直接 通信 。 这 可 以 通过 外 桥接 来 实现 。 可 以 在 图 15-9 所 示 的 示例 模板 文件 
default.conf 中 查看 Bridge 行 了 解 相 关 语 法 (文件 中 的 HOSTIPADDR 变量 需要 替换 


为 特定 市 点 的 IP 地 址 )。 
在 图 15-10 所 示 micN.conf.template XF W Network 行 中 添加 一 个 选项 是 非 
常 有 必要 的 。 


mic-create-conf.sh 脚本 假定 存在 /etc/hosts 文件 ， 且 该 文件 与 图 15-2 中 的 
语法 一 致 。 根 据 需 要 定制 了 配置 文件 模板 和 脚本 后 ， 执 行 mic-create-conf.sh 脚本 来 
生成 配置 文件 。 同 时 ， 也 需要 有 定制 的 ifcfg-ethX Al ifcfg-micbrO 文件 来 使 外 部 桥 
接 正 常 工作 。 这 些 文件 位 于 /etc/sysconfig/network-scripts/。ifcfg 示例 文件 如 
图 15-11 和 图 15-12 所 示 。 

在 这 种 情况 下 ，eth0 是 内 部 私有 TCP/IP 以 太 网 网 络 。 根 据 需要 用 相应 的 接口 替换 
eth0, ifcfg-micbrO0 文件 调用 grep 指令 ， 以 从 /etc/hosts 文件 中 获得 相应 的 了 P 了 地 
址 。 这 种 方法 使 得 同一 个 ifcfg-micbr0 文件 可 以 在 整个 集群 上 使 用 。 协 处 理 器 还 需要 有 
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如 图 15-13 所 示 的 ifcfg-micX 文件 。 


# Source for base of embedded Linux file system 
Base CPIO /usr/share/mpss/boot/initramfs- 
knightscorner.cpio.gz 


# MIC card unique overlay files such as etc, etc. 
CommonDir /var/mpss/common 


# Additional command line parameters. Caution should be 
used in changing these. 
ExtraCommandLine "highres-off" 


H MIC Console 
Console "hvcO" 


ShutdownTimeout 300 


# Storage location and size for MIC kernel crash dumps 
CrashDump /var/crash/mic/ 16 


Bridge micbr0 External HOSTIPADDR 24 9000 


PowerManagement "cpufreq on;corec6 off;pc3 off;pce6 off" 





图 15-9 default.conf 模板 文件 


Version 1 1 


# Include configuration common to all MIC cards 
Include default.conf 


# Include all additional functionality configuration 
files by default 
Include "conf.d/*.conf" 


# Unique per card files for embedded Linux file system 


MicDir /var/mpss/MICN 


4 Hostname to assign to MIC card 
Hostname "NODE-MICN" 


# MAC address configuration 
MacAddrs "Serial" 


Network class-StaticBridge bridge=micbrO micip=MICIPADDR 
mtu=64512 modhost-no modcard-no 


4 MIC OS Verbose messages to console 
VerboseLogging Disabled 


# MIC OS image 
OSimage /usr/share/mpss/boot/bzImage-knightscorner 
/usr/share/mpss/boot/System.map-knightscorner 


# Boot MIC card when MPSS stack is started 
BootOnStart Enabled 


# Root device for MIC card 
RootDevice ramfs /var/mpss/MICN.image.gz 


Cgroup memory-disabled 





图 15-10 micN.conf.template 


对 于 系统 中 的 每 个 协 处 理 器 ， 都 要 创建 一 个 ifcfg-micx 文件 。 模 板 文件 、ifcfg X 
件 和 脚本 需要 能 够 被 配置 管理 器 所 访问 ， 以 在 整个 集群 下 进行 部 署 。 把 配置 文件 发 布 到 整个 
集群 后 ， 需 要 运行 mic-create-conf .sh 脚本 ， 然 后 通过 pdsh 执行 图 15-14 中 的 指令 。 


204 $15* 


DEVICE=micbr0 
TYPE=Bridge 
BOOTPROTO=static 
IPV6INIT=no 
MTU=9000 

NM CONTROLLED-no 
ONBOOT-yes 
TYPE-Ethernet 


DEVICE-ethO 
BOOTPROTO-static 


IPV6INIT-no 
MTU=9000 

NM CONTROLLED-no 
ONBOOT-yes 
TYPE-Ethernet 
BRIDGE=micbr0 
USERCTL=no 


IPADDR=$ (grep ^hostname -s~-ethO /etc/hosts | \ 
awk '{print $1}') . 
NETMASK-255.255.254.0 

USERCTL-no 





图 15-11 ifefg-ethO 文件 图 15-12  ifcfg-micbr0 文件 





sudo micctrl --resetconfig sudo micctrl --initdefaults 


图 15-13 ifcfg-micO 文件 图 15-14 更 新 协 处 理 器 的 micctrl 命令 图 15-15  ifcfg-micO 


micctrl 命令 能 够 更 新 协 处 理 右 上 的 配置 文件 ， 使 其 与 在 主机 上 生成 的 配置 文件 一 致 。 
使 用 chkcontig 命令 使 mpss fll ofed-mic 服务 从 所 知 的 运行 级 别 开 始 启 动 。 此 时 整个 集 
群 就 可 以 重启 了 ， 每 个 主机 和 协 处 理 融 在 内 部 私有 网 络 中 都 应 该 可 以 访问 到 。 


15.4.4 MPSS 升级 


在 撰写 本 书 时 ， 没 有 直接 的 Intel MPSS 版 本 升级 方法 。 为 了 更 新 栈 ， 需 要 删除 之 前 安 
装 的 版 本 ， 然 后 安装 新 的 版 本 。 比 较 好 的 做 法 是 在 部 署 Intel MPSS 的 新 版 本 之 前 ， 先 在 单 
个 计算 节点 上 进行 测试 安装 和 配置 。 从 作者 的 经 验 来 看 ， 这 个 过 程 从 来 都 不 只 是 简 简 单单 删 
除 之 前 栈 ， 然 后 安装 新 版 本 ， 主 要 是 因为 需要 将 新 选项 增加 到 配置 文件 中 ， 而 且 语 法 也 可 能 
会 有 变化 。 我 们 希望 在 之 后 的 版 本 中 ， 这 种 配置 文件 版 本 间 的 变化 将 不 那么 频繁 。 

Intel MPSS 提供 了 uninstall .sh 脚本， 用 于 删除 当前 运行 的 栈 。 在 测试 节点 上 ， 关 
闭 配置 管理 器 ， 安 装 新 的 MPSS 栈 ， 然 后 运行 图 15-15 所 给 出 的 指令 。 

对 比 新 旧 配 置 文件 的 语法 ， 查 看 两 者 的 差别 。 必 要 时 调整 模板 文件 并 重新 启动 待 测 节 
点 ， 以 测试 配置 文件 的 有 效 性 。 如 果 一 切 工作 正常 ， 则 更 新 配置 管理 需 中 的 配置 文件 。 然 后 
可 以 在 测试 节点 上 重启 配置 管理 融 。 

检查 是 否 有 15.4.2 节 提 到 的 固件 更 新 ， 必 要 时 更 新 协 处 理 器 。 一 旦 所 有 这 一 切 都 已 经 
完成 ， 使 用 pdsh 删除 Intel MPSS 并 在 每 个 计算 节点 上 安装 新 版 本 。 


15.5 ”建立 资源 和 工作 负载 管理 器 
15.5.1 TORQUE 


资源 管理 器 是 管理 协 处 理 器 最 重要 的 应 用 。 本 章 介 绍 的 例子 是 TORQUE, 但 涉及 的 通 
用 概念 很 容易 转移 到 其 他 资源 管理 器 ， 如 SLURM。TORQUE 序言 程序 的 主要 责任 是 设置 用 
户 环境 ， 安 装 外 部 文件 系统 ， 并 检查 协 处 理 器 是 否 “ 健 康 ”。 尾 声 程 序 将 负责 删除 临时 文件 ， 
终止 垃圾 进程 ， 缉 载 文件 系统 ， 并 使 节点 返回 一 个 干净 的 状态 ， 为 下 一 份 作 业 做 准备 。 从 
http://lotsofcores.com 上 可 以 找到 更 多 与 TORQUE 序言 程序 和 尾声 程序 相关 的 例子 。 
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15.5.2 ”序言 程序 


建议 为 用 户 建 立 一 个 临时 目录 ， 用 来 存储 之 前 生成 的 ssh 密 钥 、 用 户 数据 ， 以 及 Intel 
MPI 库 运 行 所 必需 的 一 些 Intel MPI 二 进 制 文件 ( 见 图 15-16 ) 。 





15-16 TORQUE 序言 程序 中 的 $tmp 变量 


在 协 处 理 器 上 创建 用 户 环境 时 ， 可 以 通过 创建 一 个 基于 用 户 所 加 载 模块 的 . profile 来 
实现 。 这 个 例子 中 引用 的 环境 变量 是 部 署 在 Beacon 上 的 模块 所 提供 的 ， 但 是 这 些 变量 也 可 
以 静态 设置 。$IMPI 是 Intel-MPI 的 安装 位 置 ，$INTEL_COMPILERS 是 Intel 编译 器 的 安装 
fug ( 见 图 15-17 )。 


cat <<EOF > $tmp/profile 
export TMPDIR=$tmp 


export PATH=$TMPDIR/bin 
export LD LIBRARY PATH-$TMPDIR/lib:S$IMPI:$INTEL COMPILERS 
EOF 





图 1$-17 Æ TORQUE 序言 程序 中 创建 .profile 


Intel Xeon Phi 协 处 理 器 有 时 没有 被 正确 地 初始 化 ， 或 者 由 于 之 前 的 使 用 而 处 于 粳 糕 的 
状态 。 因 此 ， 建 议 在 使 用 它们 之 前 ， 做 一 些 基 本 的 “健康 ”检查 。 如 果 检 查 失败 ， 序 言 程序 
会 尝试 重新 局 动 协 处理 需 。 如 果 仍 然 失 败 ， 资 源 管 理 器 会 提醒 集群 管理 员 并 使 节点 脱 机 ， 以 
避免 资源 管理 器 再 次 分 配 它 。 图 15-18 是 一 个 具有 代表 性 的 序言 程序 检查 例子 的 伪 代 码 。 


[mpss status is stopped] 
service mpss restart 
service ofed-mic start 


[(micctrl -s | grep -c online) < #coprocessors] 
service ofed-mic stop 
micctrl -Rw 
service mpss start 
service ofed-mic start 


[(micctrl -s | grep -c online) < #coprocessors] 
mail -s "Coprocessor boot failure" admin@org.com 
disable node from resource manager and exit 





K|15-18 TORQUE 序言 程序 的 协 处 理 右 “健康 ”检查 


协 处 理 副 上 允许 安装 NFS 共享 ， 有 几 个 这 样 的 共享 需要 安装 。 建 议 各 个 协 处 理 器 共 
= Intel Parallel Studio 的 编译 器 套件 ， 这 样 用 户 就 不 必 复 制 各 个 库 。 例 如 在 Beacon 中 ，/ 
global/opt 文件 系统 被 导出 到 协 处 理 器 上 ， 这 个 文件 系统 中 包含 Intel 的 编译 器 、 多 种 调 
斌 工具、 应 用 程序 ， 以 及 专门 为 协 处 理 需 创建 的 一 些 库 。 用 户 库 构建 和 管理 的 更 多 相关 信息 
参见 15.8 节 。 男 一 种 从 主机 导出 的 非常 有 用 的 文件 系统 可 以 是 任意 高 性 能 文件 系统 ， 只 要 
这 些 文件 系统 是 可 用 于 系统 或 用 户 的 NFS 核心 区 域 的 。 这 是 非常 有 必要 的 ， 因 为 如 果 用 户 
应 用 程序 的 输出 数据 是 被 写 人 协 处 理 需 的 文件 系统 的 ， 那 么 输出 数据 将 会 丢失 。 协 处 理 器 的 
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文件 系统 是 易 失 性 的 ( 即 基 于 内 存 的 ),， — B EM o6, Aki SUUS Sl. AA Be 
将 被 重 置 。 当 重 导 出 网 络 文件 系统 到 协 处 理 器 时 ， 导 出 选项 是 非常 重要 的 。 为 了 避免 增加 一 
层 可 能 的 非 一 致 性 缓存 ， 作 者 推荐 在 每 次 通过 NEFS 重 导 出 网 络 文件 系统 时 ， 都 要 使 用 sync 
导出 选项 。 

协 处 理 器 有 几 个 不 同 的 用 户 管理 方法 。 上 默认 方式 是 所 有 用 户 都 使 用 “ micuser” 账 户 ， 
但 是 这 种 方法 在 多 用 户 环 境 不 能 很 好 地 扩展 。Intel MPSS 3.2 及 以 上 版 本 能 够 利用 micctr1l 
命令 直接 动态 地 添加 和 删除 本 地 协 处 理 需 的 用 户 。 图 15-19 说 明了 使 用 此 选项 的 语法 。 


micctrl --useradd-«name» --uid-«uid» --gid=<gid> \ 
[--home=<dir>] [--comment=<string>] [--app=<exec>] \ 


[--sshkeys=<keydir>] [--nocreate] \ 
e[--non-unique] [mic card list] 





图 15-19  micctrl 的 --useradd 命令 


在 Intel MPSS 3.2 版 之 前 ， 管 理 用 户 的 常用 方法 是 使 用 类 似 于 图 15-20 中 的 序言 程序 脚 
本 ， 使 得 可 以 在 作业 持续 期 间 访 问 用 户 。 


getent passwd $user | sed "s:/.*/$user:/User:" | \ 
sed 's:/bin/.*sh:/bin/sh:' | ssh ${node}-$mic \ 
"Cat >> /etc/passwd" 


getent group $group | ssh ${node}-Smic "cat >> /etc/group 
scp $SSH KEY LOCATION/id rsa* to micX:/Suser/.ssh 





图 15-20 TORQUE 序言 程序 的 内 容 


在 Beacon 项 目 中 ， 主 机 端 证 书 需 要 通过 LDAP 审查 ， 因 此 在 运行 micctrl 命令 或 直 
接 访问 /etc/ passwd 文件 之 前 ， 以 上 两 种 方法 都 需要 运行 和 解析 一 个 LDAP 查询 。 如 果 
使 用 的 是 micctrl 方法 ， 则 会 为 用 户 创 建 默认 .profile。 然 而 ， 因 为 之 前 已 经 根据 用 户 
当前 的 环境 生成 了 一 个 配置 文件 ， 所 以 可 以 使 用 这 个 原始 版 本 。 

Beacon 的 序言 程序 步骤 结束 后 ， 下 一 步 是 在 协 处 理 右 上 安装 导出 的 NFS 文件 系统 。 
Intel MPI 还 需要 问 协 处 理 器 上 复制 两 个 二 进 制 文件 ， 并 放置 在 用 户 的 临时 目录 中 。 最 后 ， 
先前 生成 的 ssh 密 钥 也 需要 复制 到 协 处 理 器 上 。 图 15-21 显示 了 这 些 步骤 。 


scp $tmp/profile micX:/etc/profile 


ssh micX "mount nfs shares exported from host" 
scp $IMPI/mic/bin/(mpiexec.hydra,mpi proxy] \ 
micX:$tmp/bin/ 

scp $SSH KEY LOCATION/id rsa* to micX:/$user/.ssh 





图 15-21 TORQUE 序言 程序 的 内 容 


15.5.3 ”尾声 程序 


用 户 的 工作 结束 后 ， 尾 声 程序 将 负责 清除 系统 上 的 用 户 进程 ， 然 后 将 其 系统 恢复 为 干净 
的 状态 ， 以 为 下 一 个 用 户 做 准备 。 首 先 ， 御 载 NFS 文件 系统 ， 以 保证 NFS 服务 硕 处 于 干净 
的 状态 。 然 后 重新 启动 Intel Xeon Phi 协 处 理 器 ， 以 确保 整个 协 处 理 器 处 于 干净 的 状态 。 虽 
然 为 尾声 程序 的 运行 时 间 增 长 了 约 608， 但 它 是 一 个 确保 协 处 理 器 处 于 干净 状态 的 方便 方 
法 ， 从 而 为 下 一 份 作 业 做 准备 。 最 后 ， 尾 声 程序 脚本 清理 用 户 在 主机 上 创建 的 目录 并 退出 。 
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图 15-22 概述 了 整个 过 程 。 


15.5.4 TORQUE/ Abe se mK kill all $user processes 
umount NFS shares 
service ofed-mic stop 


4.2.0 及 更 高 版 本 的 TORQUE 可 以 集成 到 Intel WALIRA? | micctrl -Rw — 
印 载 基本 库 。 启 用 后 ，pbs_mom 守护 进程 会 自动 检测 协 处 理 | zm /emp/Suser stuff — 
器 并 定期 查询 相关 参数 ， 如 内 核 数 、 线 程 数 、 最 大 时 钟 频 率 、 
内 存 总 量 、 可 用 内 存 以 及 系统 平均 负载 。 然 后 ， 通 过 PBS 调 
Beas API 可 以 使 这 一 信息 变 得 可 用 。 当 此 功能 局 用 后 ， 用 户 还 明确 地 回 部 著 有 协 处 理 硕 的 
节点 发 送 请 求 (例如 ,“qsub-lnodes=2:mics=4..”)。 这 个 功能 在 Beacon 上 启用 了 ， 
但 当前 没有 应 用 于 生产 。 如 果 集 群 中 各 个 节点 的 协 处 理 需 数目 不 同 ， 或 只 有 一 部 分 节点 有 协 
处 理 嚣 ， 那 么 这 个 功能 会 非常 有 用 。 





图 15-22 TORQUE 尾声 程序 


15.5.5 Moab 


TOEQUE 是 用 于 支持 外 部 调度 器 的 。Adaptive Computing 公司 的 Moab 工作 负载 管理 需 
是 最 常用 的 调度 器 之 一 。 与 TORQUE 的 序言 程序 和 尾声 程序 的 工作 不 同 ，Moab 不 需要 知 
道 主 机 上 是 否 有 Intel Xeon Phi， 只 要 所 需 的 调度 策略 是 基于 完整 节点 进行 分 配 的 〈《 即 节点 之 
间 不 共享 作业 )， 这 也 是 基于 加 速 器 / 协 处 理 器 系统 的 典型 分 配 策略 。 


15.5.6 ”提高 网 络 局 部 性 


通信 时 需要 经 过 的 中 间 节 点 数 越 少 ，MPI 应 用 程序 的 性 能 也 越 好 ; 在 基于 InfiniBand 的 
系统 中 ， 这 通常 意味 将 任务 放置 于 相同 的 叶 交 换 机 或 模块 下 。Moab 可 以 通过 节点 集 来 完成 
这 一 目标 。 通 过 为 节点 赋 一 个 可 以 说 明 节 点 所 在 位 置 的 特征 值 ， 然 后 配置 Moab 使 其 用 这 些 
特征 值 来 代表 节点 集 ， 用 于 完成 这 个 任务 。 在 没有 最 优选 择 时 ， 可 以 对 一 个 节点 赋 多 个 值 ， 
以 提供 多 个 位 置 选择 。 例 如 ， 下 面 的 Moab 配置 为 完成 作业 进行 节点 作业 分 配 时 ， 首 先 尝试 
打包 多 个 节点 为 一 个 子 集 合 ， 然 后 再 将 子 集合 进行 打包 ， 形 成 一 个 完整 集合 ， 最 后 完成 在 整 
个 机 需 的 打包 (〈 见 图 15-23 ) 。 


# Node sets 

# group jobs first within cages, then within racks 
4 then within the whole system 

NODESETPOLICY ONEOF 
NODESETATTRIBUTE FEATURE 


NODESETLIST rici,ric2,r1c3,ricá,r2c1,V 
rZac2,r2c3,r2c4,rácil,r4c2,N 
r4c3,r4c4,r1,r2,r4,beacon2 

NODESETISOPTIONAL FALSE 





图 15-23 Moab 节点 设置 


15.5.7 Moab/ MINIS RE Si px, 


Moab 7.2.0 及 之 后 版 本 支持 通过 TORQUE 来 完成 低层 次 的 Intel Xeon Phi 打包 。 如 果 
TORQUE 完成 了 协 处 理 器 集成 ，Moab 就 可 以 根据 是 否 有 协 处 理 器 来 进行 调度 ,并且 可 以 在 
节点 的 事件 日 志 中 记录 协 处 理 器 参数 。 
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15.6 ”健康 检查 和 监控 


Intel 提供 了 在 Intel Xeon Phi Hp Zh FH $$ E A5 4 Ganglia 所 需 的 RPM 和 相关 文档 。 
Ganglia 是 一 个 非常 有 用 的 工具 ， 它 可 以 收集 统计 数据 并 监控 整个 集群 。 作 者 在 Beacon 上 使 
用 Ganglia 来 完成 集群 的 监控 和 健康 检查 。 在 15.12 节 中 可 以 找到 Ganglia 的 项 目 页 面 。 

目前 ， 在 协 处 理 器 上 安装 、 运 行 Ganglia 的 方法 有 两 个 。 其 一 ， 如 《 Intel MPSS 用 户 指 
南 》 中 所 提 到 的 ， 在 协 处 理 需 启动 时 ， 通 过 脚本 用 Intel 提供 的 预 生成 的 RPM 进行 安装 。 在 
协 处 理 器 所 在 的 主机 上 执行 基于 Python 的 SimpleHTTPServer， 然 后 通过 zypper mU 
处 理 需 发 布 包 。 使 用 Python Æ HTTP 服务 器 上 发 布 RPM 时 ， 对 于 工作 站 环境 ， 效 果 会 很 
好 ， 但 是 对 于 集群 系统 ， 扩 展 性 就 不 那么 好 了 。 因 为 当 有 太 多 请 求 时 ， 发 布 文件 的 Python 
进程 可 能 会 频繁 停止 或 挂 起 。 作 者 建议 使 用 精简 的 Web 服务 器 (如 Apache)， 用 户 可 以 用 上 自 
己 创 建 的 zypper 进行 RPM 发 布 。 这 样 ， 通 过 配置 管理 器 管理 httpd 进程 的 过 程 也 会 更 简单 。 

TE XX Ganglia RPM 包 时 ， 遇 到 的 另 一 个 问题 是 : /var/mpss/etc/ganglia 中 的 
gmond.conf 文件 会 被 覆盖 。 建 议 将 配置 文件 重合 名 为 其 他 名 字 ， 比 如 ganglia.conf， 
并 在 守护 程序 启动 时 ， 将 该 文件 指定 给 gmond。 说 明文 档 还 建议 使 用 ssh 来 登录 协 处 理 需 ， 
然后 手动 启动 gmond 进程 。 但是, 我们 更 愿意 修改 《 MPSS 用 户 指南 》 文 档 中 所 列 出 的 
install-service 脚本 ， 然 后 将 install-service 安装 服务 脚本 移 至 /var/mpss/ 
common/etc/init.d/install-service。 同 时 ， 需 要 在 /etc/rc3.d/ 目录 下 建立 
相应 的 软 链接 ， 以 便 协 处 理 器 在 开机 时 自动 将 它 载 人 。 图 15-24 给 出 了 相应 的 例子 ， 其 中 ， 
SHOST 应 该 被 替换 为 该 Webserver 所 在 主机 的 位 置 。 


zypper ar http://SHOST:8000 klom-mpss-3.2.3 

zypper --gpg-auto-import-keys -n --no-gpg-checks \ 
install ganglia 

zypper --gpg-auto-import-keys -n --no-gpg-checks \ 
install mpss-ganglia 


/usr/sbin/gmond -c /etc/ganglia/ganglia.conf 





图 15-24 Ganglia 安装 服务 


Intel MPSS 还 为 我 们 提供 了 另 一 种 方法 来 定制 协 处 理 器 的 文件 系统 ， 即 micctrl WH 
mi micctrl--overlay, ( MPSS 用 户 指 南 汪 中 有 该 方法 的 详细 介绍 。 在 协 处理 袁 上 
安装 Ganglia 时 ， 使 用 覆盖 选项 的 安装 会 更 持久 ， 但 这 个 方法 的 文档 不 如 前 面 所 讨论 方法 的 
文档 详细 。 

一 旦 选择 好 安装 方法 ， 完 成 所 有 的 安 逆 步骤 ， 并 正确 配置 Ganglia, Web 前 并 将 显示 每 
个 协 处 理 融 和 主机 当前 的 使 用 情况 。 但 是 ， 为 了 使 用 Ganglia， 主 机 也 需要 配置 。 访 问 15.12 
PAY Ganglia 项 目 页 面 链接 ， 以 了 解 如 何在 主机 上 安装 Ganglia， 以 及 监控 系统 如 何 工 作 。 

Ganglia 另 一 个 非常 有 用 的 功能 是 测量 协 处 理 需 的 CPU 参数 。 但 是 , 在 ganglia.conf 
配置 文件 下 ， 这 个 功能 是 默认 关闭 的 ， 因 为 这 个 功能 会 使 一 些 应 用 程序 出 现 轻微 的 性 能 损失 。 
出 于 这 个 原因 ， 在 运行 Ganglia Bf, Intel 不 建议 启用 CPU 指标 检测 功能 。Beacon 内 部 测试 结 
RER, AH CPU 指标 检测 并 未 造成 任何 负面 影响 ， 但 是 在 汇集 CPU 指标 数据 时 会 产生 一 
些 问题 。 因 此 ， 推 荐 的 方案 是 在 提交 作业 时 关闭 Ganglia 的 资源 和 工作 负载 管理 器 。 

目前 ， 在 Beacon 上 进行 的 工作 是 将 Ganglia 统计 的 指标 数据 存储 到 统计 数据 库 中 ， 这 
样 系统 管理 员 就 可 以 监控 并 汇报 Intel Xeon Phi 协 处 理 器 的 使 用 情况 ， 并 决定 如 何 进行 CPU 
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和 协 处 理 器 之 间 的 作业 分 配 。 这 些 使 用 情况 统计 信息 也 可 以 提供 给 计算 机 科学 家 ， 以 帮助 他 
们 监控 用 户 应 用 程序 的 效率 ， 并 决定 是 否 需要 调 优 以 提高 性 能 。 这 样 ， 讨 算 机 科学 家 就 可 以 
主动 了 解 用 户 应 用 程序 的 效率 情况 ， 并 提供 支持 。 一 些 用 户 并 不 知道 他 们 的 应 用 程序 效率 低 
下 ， 浪 费 了 CPU 时 间 。 我 们 的 目的 是 帮助 用 户 在 更 短 CPU 时 间 内 更 快 地 运行 出 结果 ， 而 且 
这 也 给 了 系统 更 多 空闲 时 间 来 运行 更 多 的 作业 。 

Keeneland 项 目 在 基于 GPU 的 加 速 器 的 系统 上 部 署 了 类 似 的 系统 ， 而 其 中 的 灵感 正 是 
来 自 于 上 述 工 作 。15.12 节 给 出 了 Keeneland 项 目的 更 多 相关 信息 。 


15.7 常用 命令 脚本 化 


在 Beacon 项 目 中 还 创建 了 另外 一 些 脚 本 ， 用 于 将 一 些 常 用 命令 (如 ssh 和 mpiexec) 
打包 ， 从 而 使 用 户 环 境 更 加 友好 。 例如， 打包 ssh 指令 是 很 重要 的 ， 因 为 这 样 可 以 避免 用 户 
在 每 次 调用 ssh 命令 时 都 要 添加 -i $TMPDIR/.micssh/micssh-id rsa。 需 要 添加 的 
那 部 分 内 容 让 这 个 常用 的 命令 显得 非常 元 长 。 图 15-25 是 打包 了 ssh 命令 的 micssh 脚本 。 


#!/bin/sh 

if [ -n "SPBS JOBID" -a -n "STMPDIR" ] 

then 
if [ -r $TMPDIR/.micssh/micssh-id rsa ] 
then 

SSH ARGS-"-i $TMPDIR/.micssh/micssh-id rsa" 

fi 

fi 

isroot=$(echo $* | grep -c root) 

if [ Sisroot -gt 0 ] 

then 
echo This program may not be used as root 
exit -1 

fi 

export SSH ARGS 

ssh $SSH ARGS $* 





图 15-25  micssh 脚本 


通过 简单 地 改变 micssh 脚本 的 最 后 一 行 ， 即 将 ssh SSSH ARGS$* 替换 为 scP $SSH 
RARGSS* ， 就 可 以 将 micssh 脚本 转换 为 micscp 脚本 。 该 micscp 脚本 仅 适 用 于 小 规模 的 跨 
节点 和 协 处 理 器 的 文件 移动 ， 当 需要 将 文件 分 发 到 大 量 节 点 时 ， 该 脚本 将 无 法 正常 工作 。 例 子 
中 的 allmicput 可 以 让 用 户 轻松 地 将 文件 复制 到 调度 器 为 其 作业 分 配 的 各 个 协 处 理 器 。 

ssh 的 另 一 种 打包 方式 是 将 类 似 于 图 15-26 中 的 内 容 复制 到 用 户 的 ~/ .ssh/contig X 
件 中 。 在 Beacon 中 ， 这 部 分 内 容 如 图 15-26 所 示 。 


Host beacon0??-mic? 





IdentityFile -/.micssh/micssh-id rsa 


图 15-26 ~/.ssh/config 文件 


micmpiexec 脚本 (如 图 15-27 AR) 可 用 于 执行 很 多 重要 的 任务 ， 如 发 送 用 户 的 
$LD LIBRARY PATH 和 其 他 一 些 环境 参数 (如 SIMICROOT), $LD_LIBRARY_PATH 是 存 
fi Intel Xeon Phi 协 处 理 器 编译 器 库 的 路 径 。$LD _LIBRARY PATH 变量 是 Intel MPI 根 安装 
目录 ，$MKLMICROOT 是 协 处 理 副 数学 核心 库 文件 的 路 径 。 重 要 的 是 ， 把 这 些 路 径 发 送 到 协 
处 理 器 后 ，MPI 作业 环境 就 加 载 完 成 了 。 当 用 户 调用 module 命令 来 改变 环境 时 ， 这 些 路 
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径 也 可 能 跟着 改变 。 例 如 ， 它 们 不 应 该 在 协 处 理 器 的 /etc/profile 中 静态 地 设置 。 相 反 ， 
应 该 在 协 处 理 器 的 /etc/ssh/sshd_config 文件 中 增加 图 15-27 中 所 示 内 容 ， 这 样 ssh 
的 守护 进程 就 能 够 一 直接 收 这 些 环境 变量 。 


AcceptEnv MIC LD LIBRARY PATH MIC ENV PREFIX 


图 15-27 /etc/ssh/sshd config 设置 


micmpiexec 脚本 中 也 包含 用 于 传递 调试 器 语法 的 内 容 ， 这 对 于 用 正确 的 命令 行 参数 
启动 mpiexec 非常 必要 。 图 15-28 中 的 micmpiexec 脚本 能 够 完成 这 部 分 工作 。 


#!/bin/sh 
if [ =n "SPBS JOBID" -a -n "STMPDIR" ] 
then 
if [ -r $TMPDIR/.micssh/micssh-id rsa ] 
then 
MPI ARGS-"-bootstrap ssh -bootstrap-exec mics\ 
micssh -genv LD LIBRARY PATH $TMPDIR/lib:N 
$IMICROOT:$1 MPI ROOT/mic/lib:$MKLMICROOT:V 
$LD LIBRARY PATH" 
fli fi 
export MPI ARGS 
export EXEC="" 
if [ $1 = "-ddt" ] 
then 
shift 
EXEC-"ddt-client SDEBUGGER OPTIONS" 
elif [ $1 = "-tyv" ] 
then 
shift 
EXEC-"totalview -mmic -args" 
£i 
if [ -e $TMPDIR/bin/mpiexec.hydra ] 
then 
SEXEC STMPDIR/bin/mpiexec.hydra $MPI ARGS $* 


else 
SEXEC mpiexec.hydra $MPI ARGS $* 
fi 





图 15-28  micmpiexec 脚本 


15.8 ”用户 软件 环境 


Beacon 的 异 构 环境 为 安装 用 户 所 需 的 软件 珊 来 了 挑战 。 幸 运 的 是 ， 在 Beacon 系统 的 发 
展 过 程 中 ， 无 论 是 本 地 的 解决 方法 还 是 Intel 工程 修复 都 为 此 提供 了 很 大 的 帮助 。 本 节 会 对 
发 现 的 问题 及 其 解决 方案 进行 讨论 ， 还 将 详细 介绍 Beacon 当前 的 用 户 软 件 环境 。 

Beacon 软件 栈 的 结构 是 通过 swtools 生成 的 ，swtools 包括 由 橡树 岭 核心 计算 设备 
维护 的 软件 安装 管理 包 和 前 面 提 到 的 模块 系统 。 这 给 维护 软件 的 人 提供 了 一 个 自动 化 系统 ， 
以 用 于 自动 重建 应 用 程序 或 库 ， 自 动 生成 基于 Web 的 文档 和 软件 列表 ， 并 测试 库 或 应 用 程 
序 ， 以 确保 它们 能 在 所 有 平台 上 正常 工作 。 它 还 能 够 用 于 确保 软件 默认 选择 的 是 最 稳定 的 版 
本 ， 其 他 版 本 都 将 被 列 为 “试用 的 ”或 “过 时 的 ”。 最 后 ， 它 还 包括 软件 说 明文 档 ， 用 于 说 
明 软 件 用 途 以 及 文 持 该 软件 的 平台 。 当 然 ， 它 还 包括 一 个 自动 检查 更 新 的 进程 。 

在 异 构 系统 中 使 用 上 述 结构 创建 软件 栈 时 ， 首 先 必须 解决 的 一 个 难题 是 ， 软 件 必须 分 别 
在 Intel Xeon ALIRAS FI Intel Xeon Phi 协 处 理 絮 上 进行 编译 。 当 Beacon 首次 投入 生产 时 ， 所 
需 软件 树 分 为 MIC 部 分 和 XEON 部 分 ， 以 使 这 种 区 别 更 加 明显 。 这 样 区 分 开 来 虽然 简化 了 
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HP SEI t EAA ESA, BI or FEE PEE BOR RE, (AE tH (S ER RSL P BJ PE AIS 
ITER. TEXT PARLE, ERE oP ail Ay ph Be a A Ach dE Sn PE, PR a Ea) MPI 38 
fis b. FEES ET ac Bl A AP SE EIS TT, (AEE BORA BEIRIBT ER. 
经 过 测试 ，NICS PERME T Sa FE ai TEA — PRK 973 — FEBR HEIT Si EHT , 
能 够 跳 过 格式 不 正确 的 库 。 在 Beacon 上 进行 的 实验 确定 了 多 种 模式 文件 可 以 组 合成 一 个 混 
合 模 式 树 。 图 15-29 中 的 命令 将 两 组 库 或 者 二 进 制 文件 的 路 径 分 别 加 载 到 LD_LIBRARY_ 


PATH 和 PATH 环境 变量 中 。 


图 15-29 ”模块 命令 示例 


A>, MIC LD LIBRARY PATH 环境 变量 中 包含 了 模块 库 协 处 理 需 版 本 的 路 径 。 它 的 
存在 为 区 分 Xeon 和 Xeon Phi 库 带 来 了 很 大 的 便利 。 同 时 ， 在 需要 所 有 库 且 库 的 顺序 非常 重 
要 时 ， 它 可 以 用 于 将 一 条 路 径 附 加 到 其 他 路 径 上 。 对 于 用 户 只 加 载 一 个 模块 文件 并 且 无 缝 地 
在 处 理 器 、 协 处 理 器 或 同时 在 两 者 上 运行 ， 这 起 着 非常 重要 的 作用 。 

在 混合 库 的 环境 下 ， 编 译 时 会 出 现 “ 正 在 跳 过 错误 类 型 的 库 ” 的 警告 ， 但 是 正确 的 库 在 
编译 和 运行 时 可 以 正确 使 用 。 如 果 用 户 想 要 在 对 称 模式 下 运行 代码 ， 在 编译 和 运行 时 ， 多 个 
编译 器 通常 可 以 访问 两 组 库 。 

目前 ， 没 有 自 带 的 Intel 编译 器 ， 但 是 MPSS 提供 了 GNU 工具 链 以 在 Intel Xeon Phi 上 直 
接 使 用 。 对 于 协 处 理 器 ， 这 个 GNU 工具 链 只 用 来 创建 工具 ， 而 不 能 用 于 应 用 程序 ， 因 为 它 没 
有 针对 协 处 理 右 的 指令 集 进 行 优化 。 在 协 处 理 侨 上 运行 的 软件 是 使 用 Intel 工具 链 构 建 的 ， 为 
了 适应 这 一 情况 ,在 主机 上 ， 代 码 将 采用 有 -mmic 选项 的 交叉 编译 。 复 杂 代 码 的 交叉 编译 需 
要 所 有 交叉 编译 选项 都 正确 设置 才 可 以 成 功 ， 这 样 才能 避免 以 协 处 理 器 为 目标 的 代码 的 编译 
不 会 试图 作为 中 间 步 骤 在 主机 上 运行 ， 从 而 导致 安装 或 配置 失败 。 如 果 软 件 必 须 编译 和 运行 
一 段 程序 去 获取 一 些 值 以 完成 安装 ， 交 叉 编 译 也 可 能 会 中 途 停止 。 上 述 情 况 对 于 处 理 器 和 协 
处 理 器 都 需要 繁琐 的 编译 过 程 : 在 主机 上 运行 处 理 器 可 执行 文件 〈 或 在 协 处 理 器 上 运行 合适 
的 目标 版 本 ， 这 需要 发 送 和 接收 代码 与 数据 )， 将 生成 的 文件 传 回 协 处 理 器 编译 ， 编 辑 输出 文 
件 以 确保 它 用 于 协 处 理 器 执行 或 者 进一步 的 编译 ， 然 后 仅 在 主机 上 恢复 协 处 理 器 编译 。 

Beacon 上 的 软件 栈 包 含 了 30 个 预 装 软件 供 所 有 用 户 使 用 ， 其 中 包括 库 和 应 用 程序 ， 
如 OpenFOAM 和 R， 以 及 常用 的 开发 库 ， 比 如 Boost、GlobalArrays、MAGMA、HDF5、 
NETCDF 和 Metis 等 。 此 外 ， 除 了 Intel Parallel Studio 企业 版 中 所 提供 的 ， 性 能 分 析 工 具 还 
包括 了 FPMPI 和 MPInside 等 。 系 统管 理 员 将 每 个 模块 设置 为 一 个 默认 版 本 ， 当 然 ， 用 户 可 
以 选择 他 们 想 要 的 任何 版 本 。 

除了 Intel, GNU 和 CAPS 编译 器 (可 以 将 OpenACC 代码 转化 为 OpenCL 代码 ，OpenCL 
代码 可 以 编译 为 在 协 处 理 器 上 运行 )，Beacon 还 使 用 了 Rogue Wave 的 TotalView 软件 调试 
at, Allinea 的 DDT val it #& LAX MAP 分 析 器 。 为 了 使 用 Intel 的 IMPIS.0, OpenMPI LA & 
MVAPICH， 近 期 增加 了 提交 一 个 请 求 不 同 MPI 实现 的 作业 的 功能 。 


15.9 今后 的 方向 
展望 未 来 ， 在 集群 上 部 署 Intel Xeon Phi 协 处 理 占 最 主要 的 问题 是 软件 部 团 和 管理 的 可 
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扩展 性 。 早 期 Intel MPSS 版 本 的 安装 和 配置 主要 集中 在 工作 站 环境 ， 但 在 几 十 或 几 百 个 节 
点 上 这 是 难以 安装 和 目 动 化 的 。 幸 运 的 是 ， 通 过 社区 反馈 、 直 接 参 与 合作 Beacon 项 目 和 其 
他 HPC 部 署 ，Intel 已 经 提出 了 一 些 MPSS 改进 措施 ， 使 MPSS 的 模型 变 得 更 加 友好 ， 例 如 
在 通过 配置 管理 系统 的 自动 化 安装 ， 以 及 无 状态 操作 系统 部 署 (如 NFS 根 ) 等 方面 。Intel 
MPSS 还 计划 完成 更 多 的 工作 以 支持 集群 的 HPC 环境 ， 以 及 提供 配置 文件 的 透明 性 ， 这 将 
有 助 于 减少 管理 员 在 之 后 部 署 工 作 中 的 开销 。 另 外 ， 随 着 Intel MPSS 逐渐 成 熟 ，API 和 配置 
文件 的 格式 变更 也 将 越 来 越 少 ， 这 将 降低 更 新 版 本 所 融 来 的 困难 和 风险 。 

作者 预计 ， 代 号 为 “Knights Landing" (KNL) 的 下 一 代 Intel Xeon Phi 硬件 发 布 后 ， 与 
目前 可 用 的 Intel Xeon Phi 协 处 理 器 相关 的 软件 管理 问题 ， 都 将 会 得 到 大 大 改善 。 搬 模式 
KNL 将 能 够 引导 一 个 现成 Linux 操作 系统 版 本 ， 如 RHEL。 由 于 在 同一 节点 内 管理 主机 和 
协 处 理 器 ， 因 此 将 Intel Xeon Phi 处 理 器 作为 一 个 标准 的 可 启动 平台 ， 可 能 会 缓解 目前 的 许 
多 难题 ， 如 资源 管理 系统 、 监 测 、 一 般 管理 和 上 自动 化 等 。 


15.10 BS 


相对 于 一 般 的 CPU，Intel MIC 架构 (以 目前 的 Intel Xeon Phi 协 处 理 需 为 代表 ) 对 于 高 
度 并 行 的 应 用 具有 明显 的 性 能 优势 ， 并 且 相 对 于 其 他 加 速 器 和 协 处 理 器 设备 ， 在 可 用 性 方 
面 有 较 大 的 提升 ; 但 是 这 也 使 得 系统 管理 更 加 复杂 ， 尤 其 是 对 于 集群 环境 。 多 年 来 ,通过 与 
Intel 一 起 部 署 和 操作 多 个 配备 有 开发 和 生产 版 本 协 处 理 器 的 超级 计算 机 平台 ，NICS 积累 了 
大 量 经 验 ， 并 提出 了 许多 方法 和 最 佳 实践 ， 用 于 解决 大 部 分 与 架构 相关 的 操作 难题 ， 以 使 设 
备 部 署 和 操作 过 程 更 灵活 ， 并 为 用 户 提供 更 友好 的 操作 环境 。 这 些 方法 和 实践 将 为 更 广泛 的 
计算 社区 降低 门槛 ， 提 高 用 户 的 工作 效率 。 随 着 新 的 Intel MPSS 栈 和 新 一 代 Intel MIC 架构 
的 出 现 ， 这 些 集群 管理 技术 还 将 不 断 完 善 和 改进 ， 以 确保 与 一 般 的 超级 计算 社区 持续 关联 。 
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MPSS 用 户 指 南 ，http://registrationcenter.intel.com/irec nas/4245/MPSS Users Guide.pdf。 
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High Performance Parallelism Pearls: Multicore and Many-core Programming Approaches 


在 Intel Xeon Phi 协 处 理 器 上 支持 集群 文件 系统 





Michael Hebenstreit 
美国 ，Intel 公司 


如 果 用 户 不 仅仅 以 卸载 模式 使 用 Intel Xeon Phi 协 处 理 器 ， 而 是 将 其 作为 集群 上 的 一 个 
计算 节点 进行 访问 ， 就 需要 进行 一 些 特 定 配置 : 1) 解决 网 络 布局 ;2 ) Intel Xeon Phi 协 处 
理 需 能 够 使 用 集群 上 安装 的 文件 系统 。 当 完成 恰当 的 配置 后 ， 用 户 就 可 以 从 集群 上 的 任意 节 
点 直接 访问 协 处 理 器 ， 并 找到 同 标准 节点 类 似 或 相同 的 应 用 环境 (如 集群 文件 系统 ) 。 本 章 
将 讨论 如 何 配置 协 处 理 器 ， 以 便 将 计算 节点 上 的 协 处 理 器 在 整个 集群 范围 内 被 看 作 标 准 计算 
斑点 。 特 别 是 ， 这 将 使 应 用 程序 可 以 在 所 有 可 能 的 用 户 模式 下 运行 MPI 代码 。 这 些 用 户 模 
式 包 括 : 1) 主机 处 理 器 通过 外 载 模式 使 用 协 处 理 器 ; 2) 作为 原生 协 处理 器 独立 运行 MPI 
代码 ; 3) 主机 处 理 器 和 协 处理 器 同时 运行 MPI 代码 。 

为 说 明 我 们 的 目标 ， 本 章 使 用 Intel MPI 库 的 一 个 示例 在 配备 主机 节点 和 协 处 理 器 “ 节 
点 ”的 集群 上 运行 MPI 代码 。MPI 集群 的 运行 模式 允许 直接 增加 一 个 协 处 理 器 运行 MPI 程 
Fo RUF: 

e ix H Intel MPI 库 和 Intel C/C++ 编译 器 环境 : 


S . /opt/intel/impi/latest/bin64/mpivars.sh 
$ . /opt/intel/compiler/latest/bin/iccvars.sh intel64 


e 为 主机 处 理 需 编译 代码 : 


$ mpiicc -o mpitest test.c 


e 为 协 处 理 硕 编译 相同 的 代码 : 
$ mpiicc -mmic -o mpitest.mic test.c 


e 创建 包含 主机 和 协 处 理 节 点 名 称 的 文件 : 


$ echo testl-mic0 > hostfile 
$ echo test2-mic0 >> hostfile 
$ echo testl »» hostfile 

$ echo test2 >> hostfile 


e 设置 协 处 理 带 选项 并 运行 代码 : 
$ export I MPI MIC-enable 


$ export I MPI MIC POSTFIX-.mic 
$ mpirun -bootstrap ssh -perhost 1 -f hostfile -n 4 -/mpitest 


本 站 将 描述 必要 的 协 处 理 和 集群 配置 步骤 ， 以 便 使 这 个 过 程 尽量 简单 。 


16.1 网 络 配置 概念 和 目标 


相对 于 协 处 理 器 被 工作 站 内 的 单个 用 户 使 用 ， 为 协 处 理 器 配置 网 络 需要 考虑 更 多 因素 。 
特别 是 ， 必 须要 考虑 对 多 用 户 的 影响 以 及 用 户 对 网 络 连接 的 期 望 。 将 Intel Xeon Phi 协 处 理 
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器 作为 卸载 处 理 器 ， 或 者 作为 独立 的 原生 SMP 系统 ， 或 者 作为 包含 计算 节点 的 集群 ， 相 应 
的 灵活 性 都 需要 根据 系统 用 户 的 实际 需求 进行 配置 。 





例如 ， 用 户 期 望 从 自己 的 工作 站 或 者 笔记 本 电脑 通过 网 络 直接 连接 所 有 其 他 系统 。 用 户 
更 期 望 在 无 须 输入 密码 的 情况 下 ， 通 过 ssh 连接 同一 集群 上 的 所 有 计算 节点 。 这 是 运行 基于 
MPI 的 程序 和 更 简单 脚本 的 必要 前 提 。 


16.1.1 网 络 选项 概览 


从 网 络 接口 层 开始 ， 注 意 ,在 Linux 服务 器 上 安装 协 处 理 需 时 ， 系 统 会 为 每 个 协 处 理 天 
创建 两 个 额外 的 网 络 接 口 ， 如 下 图 所 示 。 









localhost 
etho 
bro 

mico 





localhost 
mico 


$ 





这 些 接口 将 会 被 Intel 众 核 平台 软件 栈 (Intel MPSS) 使 用 ， 以 允许 协 处 理 器 进行 IP 通 
信 。 但 是 ,无论 是 主机 还 是 协 处 理 器 接口 都 称 为 mic0。 本 章 使 用 host.mic0 和 card.mic0 来 
区 分 主机 和 协 处 理 需 定义 的 接口 。 


host.localhost 
host.ethO 


.localhost 
.mic0 


这 里 有 三 个 基本 的 网 络 配置 选项 。 
1. 在 主机 和 协 处 理 器 间 创 建 一 个 私有 网 络 。 例 如 ， 下 面 的 配置 将 允许 主机 和 协 处 理 吾 进 
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INA, BRN E BRA REA REV ALTA PA SH AE o 
host.mic0 192.168.0.1 netmask 255.255.255.0 
card.micO 192.168.0.2 netmask 255.255.255.0 


2. 配置 所 有 卡 监听 唯一 地 址 。 在 为 系统 的 所 有 协 处 理 需 增加 显 式 路 由 或 者 安装 一 个 路 由 
守护 线程 来 发 现 和 广播 所 需要 信息 的 前 提 下 ， 这 个 配置 就 会 允许 远程 系统 访问 协 处 理 需 。 作 
者 这 里 强烈 建议 使 用 后 者 ， 因 为 路 由 表 的 规模 和 复杂 度 将 会 随 系统 规模 的 平方 而 增长 。 在 一 
个 大 型 系统 上 ， 这 会 影响 网 络 性 能 。 

3. 在 主机 系统 上 部 署 一 个 网 络 桥 ， 为 协 处 理 器 提供 在 网 络 上 的 可 访问 性 。 在 这 个 配置 
中 ， 无 论 是 host.mic0 还 是 host.eth0 接口 都 是 可 以 通过 host.br0 设备 连接 的 。 除 此 之 外 ， 
card.mic0 现在 可 以 自动 监听 发 送 到 协 处 理 需 地 址 的 信息 的 网 络 流量 。 

为 了 避免 发 生 问 题 ，host.mic0 和 card.micO 都 需要 固定 的 唯一 MAC 地 址 (机 器 重启 后 
不 变 )。 例 如 ， 对 于 一 个 装备 两 块 协 处 理 器 的 服务 器 ， 在 网 络 桥 的 配置 下 ， 交 换 机 将 会 看 到 
5 个 MAC 地 址 。 除 非 每 次 重启 后 协 处 理 器 的 MAC 地 址 会 发 生变 化 ， 否 则 这 将 不 是 一 个 问 
题 。 如 果 这 种 情况 发 生 ， 特 别 是 在 集群 上 ， 交 换 机 或 者 文件 服务 器 上 的 缓冲 区 将 会 超 负 荷 运 
转 。 不 过 通常 这 不 是 一 个 问题 ， 因 为 协 处 理 器 可 以 利用 它们 的 序列 号 来 确定 一 个 唯一 和 正确 
的 MAC 地 址 。 


16.1.2 设置 集群 启用 协 处 理 器 的 步骤 


1. 确保 集群 上 所 有 系统 都 知道 各 种 形式 的 主机 名 。 这 包括 主 机 名 、 以 太 网 的 IP 地 址 、 
InfiniBand 接口 上 的 IP， 对 于 协 处 理 器 ， 同 主机 类 似 。 

2. 支持 InfiniBand， 需 要 安装 一 个 合适 的 OFED 版 本 。 在 本 书写 作 时 ， 这 个 版 本 或 者 是 
OFED 1.5.4.1, 或 者 是 OFA-3.5.2-mic。 请 使 用 16.4 节 中 的 下 载 链 接 下 载 最 新 的 Intel MPSS 
版 本 、 兼 容 的 OFED 版 本 以 及 更 新 的 安装 信息 。 

3. 确保 已 经 安装 了 Intel MPSS 和 协 处 理 器 卡 固件 的 最 新 版 本 。 

4. 根据 Intel MPSS 包 中 的 指导 信息 为 当前 Linux 内 核 版 本 重新 编译 和 安装 MPSS 内 核 
模块 Intel 提供 了 针对 Redhat 和 SuSE* 企业 级 发 行 版 系统 的 安装 包 ， 但 对 其 更 新 版 本 ， 没 有 
对 内 核 模块 进行 编译 和 测试 。 注 意 ,， 在 Linux 内 核 更 新 之 后 ，MPSS 内 核 模块 也 很 有 可 能 需 
要 更 新 。 

5. 重新 编译 和 安装 MIC-OFED 内 核 模块 。 注 意 ， 当 Linux 内 核发 生 更 新 时 ， 这 些 模 块 
需要 重新 编译 、 安 装 。 需 要 知道 ， 在 重新 编译 MIC-OFED 内 核 模块 时 ， 必 须要 安装 Intel 
MPSS 的 内 核 模 块 的 DEVELOPMENT 文件 。 

6. 配置 主机 系统 使 用 桥 网 络 设置 ( 见 上 一 节 )。 下 面 是 为 Redhat* 企业 级 Linux 版 本 6 
系统 配置 桥 bro 的 例子 : 


# cat /etc/sysconfig/network-scripts/ifcfg-br0 
DEVICE=br0 

TYPE=Bridge 

ONBOOT=yes 

DELAY=0 

NM CONTROLLED-"no" 

MTU-9000 

BOOTPROTO-dhcp 

NOZEROCONF-yes 
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修改 /etc/sysconfig/network-scripts/ifefg-ethO, LAS FA bro Ff: 


# cat /etc/sysconfig/network-scripts/ifcfg-ethO0 
DEVICE=eth0 

ONBOOT=yes 

BRIDGE=br0 

MTU=9000 


确保 把 原 eth0 的 地 址 赋 给 br0。 
7. 利用 下 面 命令 为 协 处 理 器 创建 一 个 基本 配置 : 


micctrl --initdefaults 


8. 或 者 通过 micctrl 2X dp 38 xd E PLI E 28 db 73 UM FE BO ZA PIE 
Redhat* 企业 版 Linux 版 本 6 系统 进行 配置 的 例子 : 


# cat /etc/sysconfig/network-scripts/ifcfg-micO 
DEVICE=eth0 

ONBOOT=yes 

BRIDGE=br0 

MTU=9000 


9. 协 处 理 器 的 网 络 配 置 支持 静态 IP 地 址 和 DHCP。 配 置 遵 循 标准 的 Linux 原理 。 在 
Intel MPSS 3.x 上 ， 每 个 协 处 理 器 的 网 络 配置 文件 位 于 : 


/var/mpss/mic[012..]/etc/networking/interfaces 


同时 ， 对 于 旧 的 Intel MPSS 2.x， 这 个 配置 文件 使 用 不 同 的 语法 ， 并 位 于 : /opt/intel/ 
mic/filesystem/mic[012--: |/etc/sysconfig/network., 


10. 使 用 下 面 的 micctrl 命令 序列 开启 协 处 理 器 (7r 重启 协 处 理 器 ; -w 等 待 操作 的 完 
成 ，-b 启动 协 处 理 器 )。 


# micctrl 一 工 
# micctrl -w 
# micctrl -b 


11. 通过 root 用 户 测 试 能 否 访问 协 处 理 硕 。 如 果 访 问 失 败 ， 你 的 /root/.ssh 文件 夹 可 能 没 
有 正确 安装 。 


# ssh "hostname -mic0 pwd 
/root 


16.2 DMbISZRCUEA WB 


T AR AP AS ASAI FS Se BC S fii RH] Intel Xeon Phi 协 处 理 器 ， 而 是 将 其 作为 集群 上 的 一 
个 计算 世上 点 进行 访问 ， 就 需要 进行 一 些 额 外 配置 。 既 然 我 们 已 经 解决 了 网 络 布局 问题 ， 现 在 
就 需要 让 协 处 理 郑 需要 能 够 使 用 集群 上 安装 的 文件 系统 了 。 

接 下 来 的 讨论 将 详细 描述 如 何 让 协 处 理 需 文 持 NFS、Lustre、BeeGFS 和 Panasas PanFS 
文件 系统 。 

一 且 这 些 改变 完成 ， 用 户 就 可 以 直接 在 协 处 理 器 上 运行 MPI 应 用 程序 了 。 


16.2.1 支持 NFS 
Intel MPSS 为 协 处 理 器 提供 了 NFS v3。 使 用 NFS 的 挑战 是 正确 配置 网 络 。 一 旦 协 处 理 
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fs ILU] "ping" ii, FPA ee E NFS IRS 28, mount 命令 的 使 用 和 标准 Linux 系统 


test-micO# mkdir -p /mnt 

test-micO# mount -o rw,nolock 10.101.235.1:/scratchl /mnt 
test-mic04 mount | grep /mnt 

10.101.235.1:/scratchl on /mnt type nfs 

(rw, relatime, vers=3,rsize=1048576,wsize=1048576,namlen=25 
5,hard,proto-tcp,port-65535,timeo-70,retrans-3,sec-sys,lo 
cal lock-none,addr-36.101.235.1) 


该 内 核 不 支持 NFS v4, Xf NFS v4 感 兴趣 的 管理 员 可 以 激活 NFSA 并 重新 编译 协 处 理 需 
的 Linux 操作 系统 内 核 。 


16.2.2 ”支持 Lustre 文件 系统 


协 处 理 需 能 够 文 持 Lustre 并 行文 件 系 统 。 为 协 处 理 器 编译 Lustre 客户 端 模 块 和 在 主机 
站 构建 客户 端 模块 相似 。Intel MPSS 提供 了 一 个 能 够 构建 内 核 模块 的 交叉 编译 内 。 

对 于 Intel MPSS 2.1.x， 协 处 理 融 的 操作 系统 内 核 位 于 /opt/intel/mic/sre/card/kernel, #4) 
建 指令 可 使 用 如 下 命令 : 


$ export PATH=/usr/linux-klom-4.7/bin:SPATH 

$ test -e ./autogen.sh && sh ./autogen.sh 

$ ./configure --with-linux-/opt/intel/mic/src/card/kernel \ 
--disable-server --without-o2ib \ 
--host-x86 64-klom-linux --build-x86 64-pc-linux 

$ make 

$ make rpms 


(EXE, Intel MPSS v3.1.2 及 以 上 版 本 已 经 连接 可 用 的 RDMA 模式 。 这 就 意味 着 这 些 版 
本 的 Lustre 可 以 在 直接 InfiniBand 支持 的 前 提 下 进行 编译 。 对 于 架构 的 变化 必须 要 注意 。 对 
F MPSS 3.x 版 本 ， 微 架构 名 称 从 x86 64-klom-linux 变 为 klom-mpss-linux. 

如 采 没 有 autogen.sh 文件 ， 这 将 成 为 一 个 问题 。 一 个 解决 方案 是 修改 所 有 的 config.sub 
MF : 


$ find . -name config.sub -exec ^ 
sed -e 's,x86 64-\* |,x86 64-* | klom-*|,' -i {} Y 


对 于 Intel MPSS 3.x， 有 如 下 编译 命令 : 


$ . /opt/mpss/3.x/environment-setup-klom-mpss-linux 
$ test -e ./autogen.sh && sh ./autogen.sh 


$ ./configure --with-linux-/SOMEPATH/linux-2.6.38-Hmpss3.x \ 
--with-o2ib-/usr/src/ofed-driver \ 
--host-klom-mpss-linux --build-x86 64-pc-linux 
$ make 
` $ make rpms 


对 于 MPSS 3.2.3， 路 经 --with-o2ib-/usr/src/ofed-driver 实际 涉及 主机 端的 mpss-ofed- 
dev-*.x86 64.rpm 包 。 可 能 的 原因 是 主机 操作 系统 和 协 处 理 占 操作 系统 使 用 相同 的 OFED 版 
本 和 API. 

这 个 模块 必须 加 载 到 在 Intel Xeon Phi 协 处 理 器 上 运行 的 内 核 中 。 为 简单 起 见 ， 挂 载 
(mount) NFS 文件 系统 为 主机 和 协 处 理 需 提供 相同 路 经 。 一 旦 RPM 创建 ，rpm 目录 将 发 生 
改变 ， 可 使 用 rpm2cpio 命令 来 提取 文件 。 

在 主机 上 : 
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$ cd /NFSPATH 

$ rpm2cpio -/rpmbuild/RPMS/x86 64/lustre-client-mic-2.5.0- 
2.6.38.8 gefd324e.x86 64.rpm | cpio -idm 

$ rpm2cpio -/rpmbuild/RPMS/x86 64/lustre-client-mic-modules- 
2.5.0-2.6.38.8 gefd324e.x86 64.rpm | cpio -idm 


使 用 root 用 户 ， 当 没有 InfiniBand 支持 时 ， 在 协 处 理 器 上 运行 : 


# INSTALLPATH-/NFSPATH/opt/lustre/2.5.0/ARCHITECTURE 
# LIBPATH-/lib/modules/'uname -r` 
# for I in S$INSTALLPATH/SLIBPATH/updates/kernel/*/lustre/*.ko \ 
do cp $I $LIBPATH \ 
done 
# depmod -a 
# modprobe lustre 
# lsmod 
# mkdir /mnt 
# SINSTALLPATH/sbin/mount.lustre 12.12.11.1@tcp:/lfs08 /mnt 


使 用 MPSS 3.x 并 支持 InfiniBand 的 系统 必须 配置 ipoib 接口 。 既 可 以 使 用 Intel MPSS 
文档 中 提供 的 方法 ， 也 可 以 直接 加 载 驱动 程序 并 配置 接口 : 


# /sbin/modprobe ib ipoib 

# /sbin/ifconfig ib0 12.12.12.100 netmask 255.255.0.0 
# /sbin/modprobe ibp sa client 

* /sbin/modprobe ibp cm client 


挂 载 Lustre 文件 系统 ， 并 使 用 root HP TEBMIEXESS EAT ON P ar : 


# INSTALLPATH-/NFSPATH/opt/lustre/2.5.0/klom-mpss-linux/ 
# LIBPATH-/lib/modules/'uname -r^/updates/kernel 
# mkdir -p SLIBPATH/net/lustre 
# mkdir -p SLIBPATH/fs/lustre 
# FILES-'cd SINSTALLPATH/SLIBPATH; ls */lustre/*.ko' 
# for I in SFILES 

do 

ln -s SINSTALLPATH/SLIBPATH/SI SLIBPATH/SI 

done 

# echo ‘options lnet networks="02ib0(ib0)"' \ 


> /etc/modprobe.d/lustre.conf 
# /sbin/depmod -a 
# /sbin/modprobe lustre 
# /sbin/lsmod 
# mkdir /mnt 
# SINSTALLPATH/sbin/mount.lustre 12.12.12.1802ib:/1fs08 /mnt 


注意 ， 在 本 书写 作 时 ，rdma_cm 支持 仍然 在 实验 中 。 在 将 来 的 Intel MPSS 版 本 中 ， 一 
些 步 又 可 能 就 不 需要 了 。 


16.2.3 支持 Fraunhofer BeeGFS 文件 系统 


BeeGFS (原名 FHGFS) 文件 系统 由 Fraunhofer ITWM 研究 所 开发 ， 并 提供 了 对 原生 
Intel Xeon Phi 协 处 理 的 文 持 以 及 InfiniBand 的 支持 。 

支持 InfiniBand 需要 rdma cm 内 核 模块 ， 这 就 需要 Intel MPSS v3.1.2 及 以 上 版 本 。 一 
日 OFED 和 Intel MPSS 安装 运行 ，BeeGFS 内 核 模 块 就 可 以 在 协 处 理 器 上 进行 编译 。 

BeeGFS 源 代码 可 从 http://www.fhgfs.com/cms/download 下 载 ， 默 认 安 装 路 径 是 /opt/fhgfs/ 
src/client, 可 以 非常 容易 地 修改 该 路 径 。 如 变换 到 /opt/fhgs)/src/client/fhgfs client module/build 
目录 (或 者 用 户 指 定 的 编译 目录 )。 

下 面 的 make 命令 假设 使 用 默认 路 径 : 
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$ make KDIR=/PATHTO/linux-2.6.38+mpss.../ 
STRIP-/usr/linux-klom-4.7/bin/x86 64-klom-linux-strip 
CC-/usr/linux-klom-4.7/bin/x86 64-klom-linux-gcc 
LD-/usr/linux-klom-4.7/bin/x86 64-klom-linux-ld 
LDFLAGS-"-m elf klom" 
FHGFS OPENTK IBVERBS-1 
OFED INCLUDE PATH-/PATHTO/mpss-ofed/src/kernel/include/ 


这 创建 了 模块 : 


4./Src/client/fhgfs client opentk module/build/fhgfs-client- 
opentk.ko 


以 及 模块 : 
4/Src/client/fhgfs client module/build/fhgfs.ko. 
Toc HE A ECC CS SIRE MIT SE BU CPP ARSE, EH Linux 命令 加 载 它们 。 例 如 : 


$ insmod fhgfs-client-opentk.ko 
$ insmod fhgfs.ko 


现在 ，BeeGFS Al LA Tz Bog HZ; ESCRIBE E T o 


16.2.4 支持 Panasas PanFS 文件 系统 


对 于 Panasas PanFS 5.0.1.e, Panasas 用 户 可 从 官网 上 为 Intel Xeon Phi 协 处 理 堪 下 载 驱 动 
程序 和 原生 工具 : http://www.panasas.com。 

因为 Panasas 允许 下 载 源 代码 ， 所 以 用 户 可 能 希望 在 Intel Xeon Phi 协 处 理 需 环境 下 直 
接 编译 它 。 这 是 可 能 的 ， 但 有 些 复杂 。 因 为 这 需要 创建 一 个 包含 Perl 工具 的 编译 环境 ， 并 
且 去 除 使 用 Intel MMX 汇编 指令 的 少量 源 代码 。 


16.2.5 ”集群 文件 系统 的 选择 


在 很 多 情况 下 ，Intel Xeon Phi 协 处 理 融 会 集成 到 已 有 的 集群 中 ， 这 时 集群 文件 系统 
(Cluster File System , CFS) 的 选择 已 经 决定 了 。 如 果 集 群 使 用 的 CFS 前 面 没 有 涉及 ， 用 户 
可 以 或 者 使 用 中 间 服 务 需 挂 载 和 再 导出 ， 或 者 移植 客户 软件 。 根 据 作 者 的 经 验 ， 这 项 工作 听 
起 来 非常 困难 ， 但 它 确实 如 此 。 

EEEH 4 种 文件 系统 之 间 ， 用 户 可 以 在 一 个 理想 的 集群 中 同时 使 用 4 个 文件 系统 。 
这 是 因为 它们 各 有 优势 : 

NFS 轻松 得 到 了 广泛 的 支持 (甚至 在 Windows E); 使 用 以 太 网 ; 单线 程 性 能 较 低 ; 可 
扩展 性 低 ; 用 于 管理 文件 系统 ; 用 于 小 集群 (<500 个 节点 ) 上 的 数据 文件 系统 。 

Lustre 使 用 以 太 网 和 InfiniBand; 单线 程 性 能 适中 ; 可 扩展 性 高 ; 用 于 快速 暂 存 文件 系统 。 

BeeGFS 使 用 以 太 网 和 InfiniBand; 单线 程 性 能 高 ; 可 扩展 性 高 ; 用 于 快速 暂 存 文件 系统 。 

PanFS 使 用 以 太 网 ; 单线 程 性 能 低 ; 可 扩展 性 高 ; 可 靠 度 高 ， 因 此 提供 高 度 的 数据 安全 
TES 用 于 数据 文件 系统 。 

没有 方法 来 确定 边界 ， 而 且 可 以 改进 。 例 如 : PanFS 的 单线 程 性 能 可 以 通过 使 用 在 
10GE 和 InfiniBand 间 的 路 由 需 盒 进行 提升 ; 或 者 使 用 恰当 的 硬件 和 软件 ， 动 态 增加 Lustre 
的 可 靠 性 。 


16.3 mi 
关于 如 何 构建 在 网 络 拓扑 中 将 Intel Xeon Phi 协 处 理 看 作 一 个 独立 的 标准 计算 节点 的 集 
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群 ， 本 章 提供 了 必要 的 信息 。 网 络 配置 和 集群 文件 系统 都 需要 进行 修改 。 有 了 这 些 组 件 和 修 
改 ， 在 协 处 理 器 上 运行 分 布 式 MPI 程序 就 会 非常 简单 ， 只 须 按 照 本 章 提 供 的 步骤 重新 编译 
即 可 。 至 于 将 程序 优化 以 达到 特定 的 计算 性 能 ， 并 考虑 在 处 理 器 和 协 处 理 矿 上 优化 的 不 同 ， 
这 是 另外 一 个 话题 。 


16.4 更 多 信息 
Intel MPSS 软件 下 载 : 


e https://software.intel.com/en-us/articles/intel-manycore-platform-software-stack-mpss 

NFS: 

e http://en.wikipedia.org/wiki/Network File System 

Lustre: 

e http://wiki.lustre.org/index.php/Main Page 

e http://www.intel.com/content/www/us/en/software/intel-solutions-for-lustre-software. 
html 

Panasas: 

e http://www.panasas.com/ 

BeeGFS: 

e http://www.fhgfs.com/cms/ 

Clustering 介绍 : 

e http://www.hpcgeeks.com/index.php/hpc-hardware/hpc-clusters/5-build-your-own- 
cluster 

è http://www.admin-magazine.com/HPC/Articles/real world hpc setting up an hpc 
cluster 

e http://www.wikihow.com/Build-a-Supercomputer 

MPI: 

e http://www.mpi-forum.org/docs/ 

Linux 网 络 桥 : 


e http://www.linuxfoundation.org/collaborate/workgroups/networking/bridge 
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17.4 引言 


Á 20 世纪 30 年 代 以 来 ,为 了 能 够 精准 地 研究 分 子 的 电子 结构 ， 人 研究 人 员 提 出 了 基于 量 
子 方程 的 研究 方法 。 随 着 近 20 年 来 新 算法 的 快速 发 展 ， 将 高 阶 多 体 方法 应 用 在 具有 挑战 性 的 
分 子 过 程 精确 模拟 问题 上 成 为 可 能 。 大 量 证 据 表 明 ， 电 子 间 的 相互 作用 对 于 准确 地 表述 化 学 
反应 的 性 质 、 分 子 特 性 和 光 与 物质 的 相互 作用 是 不 可 或 缺 的 。 可 靠 的 中 型 分 子 系统 基准 测试 
方法 同样 为 多 尺度 方法 在 空间 尺度 进行 高 阶 准确 传播 提供 了 一 种 尝试 。 其 中 一 些 方法 可 以 有 
效 利用 计算 资源 ， 因 为 它们 具有 高 计算 复杂 度 和 适当 的 数据 粒度 。 如 广泛 的 耦合 徐 (coupled 
cluster, CC) 就 属于 这 类 方法 。 最 近 的 一 些 CC 实现 清晰 地 展示 了 CC 形式 在 众 核 计算 机 
架构 上 的 可 扩展 性 。 在 本 章 中 ，NWChem 提供 了 一 系列 张 量 收缩 引擎 (Tensor Contraction 
Engine，TCE)， 这 些 算 法 由 不 同 CC 方法 实现 这 些 CC 方法 又 充分 利用 众 核 计算 机 架构 。 

基于 GPU 或 者 Intel 众 核 架 构 的 混合 架构 提供 了 男 一 种 降低 高 阶 CC 算法 求解 时 间 的 
方法 选择 。Intel Xeon Phi 协 处 理 器 上 对 CCSD (T) 方法 的 实现 就 是 一 个 很 好 的 例子 。 因 此 
CCSD 在 高 精确 计算 化 学 领域 中 被 视 为 一 条 “黄金 标准 ”。 

对 于 领域 专家 来 说 ， 是 除 获得 高 性 能 之 外 ， 将 这 些 模拟 工具 在 硬件 上 高 效 实现 是 实现 
成 功 的 关键 需求 。 在 推出 时 ，Intel Xeon Phi 协 处 理 需 承诺 是 比 传统 的 协 处 理 堪 更 加 有 效 的 
计算 部 件 ， 同 时 也 更 易于 回 协 处 理 器 移植 代码 。 根 据 我 们 在 NWChem 化 学 包 方面 的 经 验 ， 
基于 Xeon Phi 的 承诺 ， 我 们 充分 利用 由 MIC 平台 软件 栈 、Fortran 的 Intel Composer XE 和 
Intel VTune Amplifier XE 所 组 成 的 工具 链 优化 代码 。 我 们 的 目标 是 不 重 写 现 有 Fortran 代码 ， 
以 防止 这 些 代码 不 适用 于 Intel Xeon 平台 。 同 时 ， 我们 希望 继续 开发 和 优化 Fortran 代码 ， 
使 得 Intel Xeon 处 理 器 和 Intel Xeon Phi 协 处 理 右 都 获得 更 好 的 性 能 (至 少 不 会 降低 它们 的 
性 能 )。 

在 本 章 中 ， 我 们 使 用 高 性 能 印 载 解决 方案 获得 高 产 出 率 的 代码 。 这 种 高 性 能 印 载 方法 在 
最 近 Top500 排名 前 20 的 系统 中 显示 出 非常 好 的 高 并 行 性 能 和 可 扩展 性 。 在 我 们 的 研究 中 ， 
定义 了 一 种 新 的 方法 ， 开 发 者 可 以 使 用 这 种 方法 决定 代码 中 哪些 部 分 适合 外 载 到 协 处 理 器 上 
进行 计算 ， 以 及 需要 哪些 步骤 将 这 些 代 码 迁 移 到 Intel 协 处 理 右 上 。 我 们 的 方法 为 和 卸载 位 置 和 
计算 机 内 核 优 化 提供 了 必要 的 输入 信息 。 下 面 先 快速 介绍 理论 背景 和 NWChem 的 基本 架构 。 


17.2 回顾 单线 程 CC 形式 


我 们 先 简要 描述 一 下 单线 程 CC 形式 。 我 们 也 将 着 重 讨论 方程 的 数值 形式 和 并 行 策略 。 
CC 理论 建立 在 存在 一 个 Slater 行列 式 | 更) 的 假设 上 ， 这 个 行列 式 可 视 为 参考 图 数 ， 其 能 够 
通过 波 函 数 | 到 ) 提 供 一 个 基态 电子 态 零 阶 的 合理 描述 。 通 第 情况 下 ， 波 函数 被 选 作 Hartree- 
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Fock (HF) 行列 式 。CC 参数 化 中 的 波 函 数 是 以 指数 拟 合 的 形式 出 现 的 。 

|y e 1o) ( 17-1) 
这 里 族 操 作 符 了 只 由 链接 图 表示 。 引 入 簇 操作 符 CC 方程 的 典型 方式 是 将 式 (17-1 ) SIE 
定 户 方程 的 形式 : 


He’ |Ø) = Ee’ |Ø) ( 17-2.) 
TEX (17-2) 两 边 都 左 乘 e ， 可 得 
e" He! |) - E |) (19-3) 
使 用 以 下 Baker-Campbell-Hausdorff 引 理 
e! 4e = A+[4,B]+ — LA B]B] 54, 81,8], ] (17-4) 
能 够 将 式 (17-2) 写成 如 下 形式 : 
(He').|$) = E |Ø) (17-5) 


这 里 下 标 “C” 表 示 给 定 运 算 符 的 链接 图 。 通 过 相对 于 参考 行列 式 1o ) 将 式 (17-5) 投 
影 到 各 个 可 能 激发 的 立体 基隆 轻 7”"》， 我 们 得 到 簇 振幅 的 去 耦合 等 式 


(95^ |(He'). |o) 20 ( 17-6) 
从 能 量 角度 ， 通 过 投影 式 (17-5) 到 参考 函数 得 到 如 下 形式 : 
E - ($ | (He" ). |o) (17-7 ) 


上 述 等 式 用 于 确定 艇 振幅 和 对 应 的 能 量 。 我 们 应 该 能 够 注意 到 ， 对 于 了 操作 符 ， 第 一 步 
非 线 性 等 式 需 要 迭代 解决 ， 接 着 应 该 使 用 已 知 的 簇 振幅 计算 能 量 。 

在 实际 的 应 用 中 ， 簇 操作 符 可 由 多 体 展开 式 近似 ， 而 多 体 展 开 式 在 特定 激发 能 级 
ma (ma<<N, P N 被 指定 为 系统 中 互相 关 的 电子 数量 ) 被 截断 : 


n=] 
T=% T, ( 17-8 ) 


其 中 T, 是 簇 操作 符 T 的 一 部 分 ， 当 了 应 用 于 参考 函数 时 ， 便 会 产生 NW 元 组 激发 。 最 常 
见 的 近似 是 CCSD 方法 GR, X CC 方法)， 其 中 簇 操 作 符 是 通过 单 激发 (T1) 和 双 激 发 (T2) 
多 体 元 素 所 定义 的 。 这 推导 出 了 如 下 CCSD im. 

Pwe p) ( 17-9 ) 

FLAT, AT. (RRA Cu). 和 双 激 发 的 (1 如 簇 振幅 以 及 对 应 的 创建 /毁灭 操作 符 
(X, /X,): 


R= DEX, (17-10) 
] ij + + 
h= 4 b» DX, X, XX ( 17-11 2 
i, j,a,b 


ij: Cab) 下 标 表示 被 占据 的 (未 被 占据 的 ) 旋转 轨道 在 参考 函数 |5 ) 中 的 下 标 。 簇 
振幅 的 标准 CCSD ERP WM EST EAN HERE PE), REST HAH Re a) 
HRUD), I^) = X XIDIR) 17) = XXX XY) sr PRE ETT s SLY : 

(d | (He^*^). |) 20 Vi,a ( 17-12.) 
(DP | (He^*^). |) 2 0 Vi, j,a,b ( 17-13 ) 

其 中 , 如 是 电子 汉密尔顿 函数 操作 符 。 一 旦 从 式 (17-12) 和 式 C17-13 ) "Pf E d UR, 
CCSD 能 量 就 可 以 从 下 面 的 表达 式 计算 出 来 ; 

E - ($ | (He^*^),. |o) ( 17-14) 


24 E E CA 


使 用 diagrammatic 技术 ， 可 以 很 容易 确定 式 (17-12 ) 和 式 (17-13 ) 的 代数 结构 以 及 对 
应 的 等 式 计 算 复 杂 度 ， 其 中 计算 复杂 度 正比 于 Am (n 和 nn, 分 别 表示 占据 和 未 被 占据 的 旋转 
轨道 )。 但 是 ， 多 数 情况 下 准确 获得 CCSD 形式 并 不 足以 提供 所 谓 的 化 学 准确 性 ， 化 学 准确 
性 被 定义 为 误差 低 于 1kcal/mol。 为 了 得 到 化 学 准确 性 ， 必 须 包 含 三 激发 (用 TT 操作 符 表示 )。 

直接 在 簇 操 作 中 包含 3 体 效 果 Cr) 会 导致 高 计算 规模 (ASF non) 和 高 内 存 需 求 (A 
等 于 nons)， 这 些 都 阻碍 了 CCSDT ( 单 、 双 、 三 CC 方法 ) 的 计算 ， 即便 是 对 小 分 子 系统 的 
计算 也 如 此 。 为 了 降低 CCSDT 的 规模 而 不 降低 精度 ， 过 去 几 年 已 经 有 了 很 多 方法 ， 其 中 
以 微 扰 方式 估计 了 兄 振 幅 (参考 17.10 节 ; Bomble et al., 2005; Crawford and Stanton, 1998; 
Gwaltney and Head-Gordon, 2000; Gwaltney et al., 2000, 2002; Hirata et al., 2001; Kallay and 
Gauss, 2005; Kowalski and Fan, 2009; Kowalski and Piecuch, 2000; Kowalski and Valiev, 2009; 
Kucharski and Bartlett, 1998; Piecuch and Wloch, 2005; Piecuch et al., 2006; Raghavachari et 
al., 1989; Stanton, 1997; Taube and Bartlett, 2008a,b; Urban et al.，1985)。 在 这 类 形式 中 最 流 
行 的 方法 是 CCSD(T)， 这 种 方法 中 的 基态 能 量 被 CCSD 能 量 (E) 的 总 和 以 及 非 迭 代 的 
CCSD(T) 修正 所 表达 ， 这 个 修正 结合 了 其 中 包含 三 激发 中 间 态 的 标准 多 体 问 题 扰动 理论 的 
展开 式 第 四 和 第 五 个 元 素 : 

pem "x pe +Ø | (E. IR VT, |) 
* (5| Y, )ROVT, |D) 

FL, Vw RF DUIS ACD PAE T XU BUE SX P AZER CCSD(T) 方法 是 当前 
最 党 使 用 的 方法 。 特 别 是 在 光学 性 质 、 几 何 优化 和 化 学 反应 领域 的 研究 中 ， 这 个 方法 最 为 
TH. 

使 用 三 体 方法 R$ AEM, CCSD(T) 能 量 可 以 重 写 为 : 


五 csSDO ED 


( 17-15) 


(DI (TV, ) IDE KD IVT, |B) 


+ Y. ijk 
(DIT VID 7); IVT, 1D) 
cja 6 +6, +5, 8, 6 —6, 


a<b<c 


Hp, e 是 轨道 能 量 。CCSD (T) 修正 中 最 消耗 计算 资源 的 部 分 (有 non, 的 缩放 比例 ) 与 
是 否 存 在 (BxIV 7 更 ) 项 是 相关 的 ， 而 这 个 表达 式 是 如 下 定义 的 : 


abe _ ij gmk ij gmk , ij gmk 
(So IWEIO)S vibe vul, tVLI 


=y“ qni * y py 一 V qi 
tv =y tm pik pm 
-vit + vith — vet! (17-17) 
virt -vli evi rh 
-vät + vär -vět 
(i<j<k,a<b<c) 

Hp, y E ETERNE. A (17-17) 能 够 分 成 收缩 、 被 占据 的 下 标 (Ai X 17-17) 
中 右边 (r.h.s) 的 前 9 个 变量 )， 以 及 对 应 于 收缩 、 被 占据 下 标的 项 (B; GX 17-17 ) 右边 的 
余下 项 ): 


(Dig ND |G) = Aj + By (17-18 ) 
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TCE CCSD(T) 的 实现 使 用 了 所 有 张 量 定义 复 和 汉密尔顿 图 数 操作 符 的 旋转 轨道 表达 
方式 。 这 保证 了 TCE CCSD(T) 方 法 可 以 使 用 不 同 参考 函数 ， 包 括 闭合 过 系统 的 限制 性 
Hartree-Fock 47 Jl 3X LJ J& BR tl PE JF se RIT se ad F AY SE BR dl HE HF Slater 行列 式 。 然 而 ， 相 比 
于 其 他 仅 针 对 闭 过 系统 描述 的 CCSD(T) 实现 (比如 基于 轨道 非 正 交 旋 转 适应 形式 的 NOSA- 
CCSD (T) 的 CCSD (T) 实现 )， 这 个 方法 可 以 解决 大 量 的 复 振 幅 问题 。 

一 般 的 CCSD(T) 旋转 轨道 公式 的 求解 比 NOSA-CCSD(T) 形式 要 惕 ， 原因 有 两 点 。 首 
先 ， 在 旋转 轨道 公式 中 有 4 种 类 型 的 (T) 项 ， 中 间 的 三 激发 的 旋转 结构 是 相关 的 :152)， 
I) ,192600)，lGbp)。 其 次 ， 内 部 收缩 是 通过 旋转 轨道 下 标 表现 的 ( 相 比 于 NOSA-CCSD (T) 
方法 ， 这 个 方法 要 花费 两 倍 的 代价 )。 事 实 上 ， 在 旋转 轨道 中 三 激发 振幅 的 反对 称 化 会 引入 
其 他 因素 ， 这 些 因素 会 导致 旋转 轨道 CCSD(T) 的 计算 复杂 度 上 升 。 然 而 ， 所 有 的 因素 一 定 
会 和 基础 理论 的 代数 结构 相关 并 且 与 给 定 实现 的 效率 无 关 (意味 着 缺失 这 些 因素 也 不 会 影响 
什么 )。 


17.3 NWChem 软件 架构 


1993 年 ， 有 两 个 主要 的 概念 影响 了 NWChem 的 设计 。 

e 在 大 规模 并 行 集群 上 的 扩展 性 。 

e 为 了 实现 新 的 理论 方法 而 来 用 的 以 模块 为 基础 的 架构 。 

这 两 种 具有 决定 性 意义 的 特征 使 得 NWChem 的 发 展 显著 区 分 于 其 他 传统 且 成 功 地 应 用 
在 计算 化 学 领域 的 工具 。 

代码 架构 的 模块 化 是 通过 Fortran 的 面 回 对 象 方法 实现 的 。 我 们 提供 给 读者 的 出 版 物 中 
有 对 于 这 个 主题 的 阐述 ， 这 些 出 版 物 会 细致 地 描述 NWChem 架构 的 不 同 部 件 。 


17.3.1 全 局 数组 


为 了 完成 并 行 可 扩展 性 ，NWChem 采用 全 局 数组 
(GA) 工具 包 进 行 通信 (参考 图 17-1 )。GA 工具 包 是 
一 个 库 ， 它 用 来 并 行 化 其 主要 部 分 是 大 且 密 的 数组 的 
代码 。GA 通过 在 并 行 计算 机 的 分 布 式 内 存 上 分 布 数组 
并 提供 一 套 简易 操作 这 些 数组 的 方法 ， 为 科研 程序 员 
提供 了 一 个 抽象 层 。 更 传统 的 消息 传递 方法 需要 发 送 s | 
者 、 接 收 者 同步 执行 任务 (如 数组 转换 )， 而 NWChem Fortran/C 运行 时 
代码 使 用 单 边 的 GA 操作 达到 了 这 样 的 目的 。GA 可 以 图 17-1 NWChem 软件 栈 的 组 件 
分 为 两 类 操作 : 聚合 和 局 部 。 聚 合 操作 需要 调动 全 部 进 
程 参与 进来 ， 而 局 部 操作 可 能 只 有 单个 进程 独自 参与 。 预 取 (ga get) 或 者 更 新 (ga put) 
是 最 常用 的 局 部 操作 。 通 常 来 说 ， 线 性 代数 操作 是 聚合 操作 (比如 和 矩阵 乘法 、 求 特征 值 等 )。 
GA 提供 了 Fortran 和 C/C++ 的 语言 绑 定 。 这 意味 着 当 使 用 MPI 实现 它 自己 的 一 些 功能 CH 
如 进程 创建 、 一 些 集合 操作 ) 时 ， 这 个 库 会 与 MPI 兼容 。 

在 给 定 计 算 机 架构 上 GA. 的 效率 严重 依赖 于 聚合 远程 内 存 复 制 接口 (ARMCI) 库 。 
AEMCI 通过 映射 到 很 多 不 同 的 通信 渠道 (比如 MPI、OpenIB Portals 等 ) 实现 了 GA 的 基 
本 通信 层 。 


NWChem 
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17.3.2 KEKA 


TCE 使 用 了 一 种 多 步 方法 自动 求 导 和 并 行 化 量子 多 体 方法 ，CC 就 是 一 种 可 以 使 用 的 量 
子 多 体 方法 。 首 先 ， 把 运算 表达 式 转 换 成 多 维 数组 表达 式 。 其 次 ， 使 用 性 能 启发 法 把 这 些 数 
组 表达 式 转 换 为 优化 操作 树 。 最 后 ， 使 用 源 模板 实现 优化 操作 树 所 表达 的 并 行 代码 。 因 为 
TCE 的 出 现 ， 第 一 种 并 行 实现 的 数值 方法 比 之 前 更 广泛 地 使 用 到 大 规模 科学 问题 上 。 原 来 
NWChem 中 的 TCE 实现 是 泛泛 意义 上 实现 的 ( 即 对 于 已 知 特例 缺乏 优化 )， 这 种 TCE 要 经 
过 优化 才能 将 NWChem 中 的 CC 方法 拓展 到 超过 1000 个 进程 上 。 应 用 在 TCE 的 优化 手段 
基本 涵盖 了 代码 的 所 有 方面 ， 包 括 更 加 紧 竣 的 代码 表示 (无 旋转 积分 在 标准 案例 中 是 立刻 反 


对 称 的 )， 通 过 使 用 TCE 编译 句 所 不 能 实现 的 额外 聚合 来 减少 通信 。 


Z(i, j,a,b)+ = YX(i,j,c,d)*Y(c,d,a,b) 
d.e 


这 类 表达 式 是 CCSD 等 式 求解 的 瓶颈 ， 


(17-19 ) 


这 个 表达 式 中 ,在 所 有 维度 上 的 每 个 数组 都 参 


与 了 运算 ， 这 些 数 据 分 布 在 1 维 GA 中 的 机 希 上 。 这 个 应 用 并 不 使 用 多 维 GA， 因 为 这 里 不 


能 利用 块 稀 玻 性 或 者 指数 排列 对 称 性 。 远 
程 访问 是 通过 使 用 一 个 针对 数据 块 的 查询 
表 和 一 个 ga_get 操作 得 以 实现 的 操作 。 
但 是 全 局 数据 层 的 结构 对 于 本 地 计算 并 不 
总 是 合适 的 。 因 此 ， 在 ga get 操作 完成 
之 后 ， 紧 接着 要 将 数据 重新 排列 成 方便 计算 
的 形式 。 为 了 标记 的 紧凑 性 ， 我 们 使 用 
Fetch 操作 来 代表 我 们 在 数据 重 排 之 后 刚 
刚 提 到 的 从 全 局 内 存 复制 数据 到 本 地 内 存 的 
操作 。Symm 函数 是 一 系列 逻辑 测试 的 压缩 ， 
这 些 测试 可 判定 一 些 特定 的 块 是 否 非 零 。 这 
些 测 试 可 视 为 块 的 索引 ， 但 在 块 内 忽视 索 
引 ， 因 为 对 每 个 块 都 进行 分 组 ， 这 样 所 有 基 
本 元 素 的 对 称 性 质 是 相同 的 。 每 个 块 索引 
代表 一 组 连续 的 索引 ， 所 以 收缩 就 发 生 在 多 
维 数 组 间 ， 而 不 是 单个 元 素 上 。 但 是 我 们 也 
可 以 认为 本 地 操作 是 两 个 块 的 点 乘 。 

XIF (T) 模板 的 估 值 (图 17-3) 是 非 
常 类 似 的 。 本 地 的 6D 三 元 中 间 态 的 计算 所 
在 的 内 层 循 环 需要 以 类 似 于 图 17-2 所 示 算 
法 的 方式 预 取 V. T, f T; OSSIA. 


17.4 ”设计 季 载 解决 方案 


新 的 软件 要 在 Intel Xeon Phi 协 处 理 器 
上 运行 时 ， 我 们 要 重点 考虑 该 使 用 何 种 操 
作 模 式 和 何 种 编程 模式 。 在 协 处 理 硕 的 本 





图 17-3 


Tiled Global Arrays: X, Y, Z 
Local Buffers: x, y, z 
for all i, j € Otiles do 
for all a.b € Vtiles do 
if Symm(i, j, a, b) == True then 
Allocate z for Z(i, j. a,b) tile 
for all c,d € Vtiles do 
if Symm(i, j.c, d) == True then 
if Symm(a,b,c, d) == True then 
Fetch X(i, jJ, c, d) into x 
Fetch Y(c,d,a,b) into y 
Contract z(i, j, a, b) += x(i, j,c,d)*y(c,d,a,b) 
end if 
end if 
end for 
Accumulate z into Z(i, j, a,b) 
end if 
end for 
end for 


图 17-2 xt (17-19) 的 默认 TCE 实现 的 伪 代 码 


Tiled 4D Global Arrays: V, D 

Local Scalar: es, ed 

Local 4D Buffers: v, d 

for all i, j./ € Otiles do 

for all a,b,c € Vriles do 
if Symm(i, j,k,a,b,c) == True then 

Allocate ts, td (local 6D buffers) 
Compute ts ( (our IVA T, |)) 


Compute td ( (were |Vv72|®)) 
Compute es (term 2 in Eq. 16) 
Compute ed (term 3 in Eq. 16) 
end if 
end for 
end for 
Reduce es, ed 





式 (17-16) 的 默认 TCE 实现 的 伪 代 码 。ts 
Alta HAES VOV) DIT) 
的 块 预 取 ， 并 执行 与 式 (17-17 ) 展示 的 排 
列 相 关 的 所 有 本 地 收缩 
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机 模式 或 者 对 称 模式 下 ， 协 处 理 器 都 是 自治 的 计算 节点 ， 这些 节点 在 无 论 是 否 有 其 主机 参与 
的 情况 下 ， 通 过 运行 MPI 或 者 GA 序列 参与 计算 。 而 在 抒 载 模式 下 ， 一 部 分 计算 仍 在 主机 
中 完成， 但 一 些 内 核 连 同 它 们 的 输入 数据 都 印 载 到 协 处 理 器 中 进一步 处 理 。 

我 们 认为 TCE CCSD(T) 算法 的 结构 是 非常 适合 使 用 外 载 模型 的 。 它 包含 了 几 个 浮 点 计 
算 密 集 和 高 度 并 行 化 的 内 核 。 代 码 中 也 有 很 多 可 以 数据 重用 的 代码 段 ， 主 机 和 协 处 理 器 之 间 
因此 避免 了 大 量 的 通信 。 除 此 之 外 ,在 本 机 模式 中 ， 一 些 算 法 的 开始 阶段 (比如 两 电子 排斥 
积分 的 估 值 ) 需要 大 量 调试 ， 然 而 在 御 载 模式 下 ， 我 们 能 够 在 主机 端 进行 这 些 计 算 。 最 后 我 
们 期 望 GA 能 够 在 主机 端 比 协 处 理 需 端 得 到 更 高 的 消息 率 和 在 更 高 的 通信 人 带宽。 

在 本 机 模式 、 主 机 间 的 MPI 实现 的 对 称 模式 和 伯 载 模式 中 ， 我 们 选 了 件 载 模式 。 因 此 
我 们 要 分 析 代 码 中 哪些 部 分 适合 印 载 。 在 一 些 如 同 NWChem 的 复杂 应 用 中 ， 寻 求 一 种 合适 
WA ETRE PALA HARR IE A FCS EF FR BRE AEB ST EXER, AE 
JT ik MT SC USF Ck HE CS a B. RIKTA ES E DIR] FERH AE 
所 局 发 的 (Yasin, 2014 )， 这 个 方案 通过 热点 分 析 发 现 应 用 代码 中 的 瓶颈 ， 从 而 优化 软件 。 

图 17-4 是 我 们 的 方案 的 图 形 解释 。 我 们 先 选 择 一 个 基准 测试 ， 这 个 基准 测试 尽 可 能 地 
仿真 应 用 ， 同 时 它 的 规模 要 小 ， 可 以 控制 。 一 个 理想 的 基准 测试 运行 时 间 大 概 不 超过 15 分 
钟 ， 更 重要 的 是 ， 能 够 触发 和 真实 应 用 一 样 的 代码 区 域 。 运 行 基准 测试 时 ， 收 集 应 用 数据 ， 
并 得 到 一 个 热点 配置 文件 。 在 配置 文件 中 的 热点 部 分 都 是 潜在 的 外 载 选项 。 我 们 接 下 来 做 调 
用 树 分 析 ， 它 将 给 我 们 关于 (潜在 的 ) 普通 困 数 的 信息 ， 这 些 函 数 能 够 用 作 御 载 的 常用 定位 
点 。 下 一 步 ， 我们 需要 鉴别 潜在 的 热点 代码 是 否 适 合 印 载 到 协 处 理 器 上 执行 。 接 下 来 我 们 关 
注 的 数据 (这 可 能 需要 额外 的 性 能 数据 ， 比 如 ， 内 存 带宽 、 向 量化 潜力 等 ) 来 自 于 循环 分 析 。 
这 里 我 们 将 检查 一 个 热点 并 定位 任何 循环 以 及 它们 的 最 小 计数 、 最 大 计数 和 平均 循环 计数 。 
我 们 也 加 入 了 从 编译 器 向量 化 报告 中 得 到 的 更 加 复杂 的 循环 信息 ， 用 于 了 解 循环 是 否 能 够 稳 
定 地 回 量化 和 并 行 化 。 

最 后 三 步 接着 处 理 了 实际 实现 的 工作 。 在 分 析 之 后 ,我 们 就 可 以 加 入 印 载 pragmas 关键 
F (Intel HRN), 8022589 X RE-E. (Intel Cilk Plus) 或 者 OpenMP 指令 。 在 一 段 代码 
中 加 入 务 载 关键 字 有 时 候 并 不 会 得 到 最 优 解 ， 因 为 这 个 关键 字 会 引发 PCl 总 线 上 大 量 的 数 
据 传 输 。 在 这 里 ， 我 们 会 结合 调用 树 分 析 的 结果 提升 印 载 和 数据 传输 的 性 能 ， 并 最 小 化 数据 
传输 。 最 后 ， 我 们 优化 单个 印 载 区 域 ， 从 而 提升 这 段 代码 在 目标 设备 上 的 性 能 。 

我 们 将 上 述 方法 应 用 到 NWChem CCSD (T) 方法 的 优化 中 。 我 们 使 用 尿 喀 啶 二 聚 体 作 为 
基准 测试 ， 并 使 用 VTune Amplifier XE 分 析 热 点 。 

图 17-5 展示 了 GUI 的 截屏 以 及 应 用 的 热点 。 我 们 能 看 到 comex make progress rf 
数 消耗 了 58% 的 时 间 。 这 个 函数 的 主要 作用 是 处 理 NWChem 各 进程 之 间 的 通信 。 它 耗 时 的 
原因 是 这 个 函数 使 用 了 很 多 循环 来 等 竺 来 目 其 他 进程 的 消息 。 另 外 ， 这 里 有 38% 的 计算 时 间 
来 自 于 18 个 sd t ax Y MŽ (sd t dl 1 到 sdt dl 9 和 sdat ad2 到 sa t d2 9), 
它们 都 被 另外 一 个 锚 函 数 (在 ccsd t double 1.F 中 的 ccsd d doubles 1 2) 调用 。 
因为 根据 热点 配置 文件 的 信息 ， 我 们 认为 这 些 函 数 鲫 载 到 协 处 理 器 上 会 是 一 个 不 错 的 选择 。 

接着 ， 分 析 调 用 树 的 信息 ， 这 个 调用 树 文件 显示 了 所 有 调用 sd t ax Y 函数 的 函数 。 
17-6 展示 了 相应 的 VTune Amplifier XE 的 截屏 。 调 用 树 分 析 显 示 所 有 的 sd t ax Y 都 
是 被 单个 因数 ccsd_ d doubles 1 2 所 调用 的 。 就 像 我 们 在 17.5 节 中 将 要 看 到 的 ， 这 个 
田 数 将 是 我 们 主要 的 优化 目标 : 我 们 要 使 它 减 少 与 协 处 理 器 设备 来 回 的 数据 传输 。 
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创建 基准 
测试 标记 


调用 树 分 析 








优化 数据 流 


d d 





图 17-4 应 用 到 NWChem AYER ATT i 


= Basic Hotspots 


^A GE Ec — "ba 
Putil wallsec 0.0105 | 





— sdt d22 | 92330 
 sdtd28 | | 918/05 
»sdtd29 #£| 93157558d 
sdt d2 5 : 90.4905 ii 
sdtd23 | 8993088 
 sdtd26 | | 88020588 
_ Selected 1 rowis): | 
EoD U 


图 17-6 图 17-5 中 热点 的 调用 树 分 析 
下 一 步 ， 我 们 将 分 析 每 个 sa t ax YAR RBG Bie A Al ay Pl Oph EA IGE. 
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多 线程 和 SIMD 回 量 化 是 实现 协 处 理 需 高 性 能 的 关键 。 因 此 ， 我 们 需要 评估 这 些 内 核 是 否 适 
合 做 SIMD 和 多 线程 优化 ， 进 而 决定 哪些 内 核 适合 卸载 到 协 处理 器 上 。 作 为 18 个 内 核 的 代 
表 ， 图 17-7 展示 了 sd 上 dl 1 内 核 的 代码 ， 这 些 内 核 有 相同 的 基本 内 核 结 构 。 每 个 内 核 
由 7 个 完美 馈 套 的 循环 组 成 ， 这 些 循环 用 来 计算 一 个 非常 紧密 的 最 内 层 的 循环 体 。 这 些 循环 
的 计数 在 20 一 30 之 间 ， 如 此 小 的 循环 计数 并 不 适合 做 OpenMP 多 线程 优化 。 琐 碎 的 〈 自 动 ) 
向 量化 也 会 让 代码 的 向 量化 潜能 降低 (大概 只 有 80%)。 然 而 ， 这 些 循环 并 没有 包含 任何 循 
环 依 赖 (这 些 依赖 会 阻止 并 行 化 和 向 量化 )， 因 此 这 些 循环 很 适合 秃 载 到 协 处 理 器 上 。17.6 
节 将 会 展示 如 何 优化 才能 提升 向 量化 和 并 行 化 的 潜能 。 


subroutine sd_t_di_1(h3d,h2d,hid,p6d,p5d,p4d, 
1 h7d,triplesx,t2sub,v2sub) 
integer h3d,h2d,hid,p6d,p5d,p4d,h7d,h3,h2,h1,p6,p5,p4,h7 
double precision triplesx(h3d,h2d,hid,p6d,p5d,p4d) 
double precision t2sub(h7d,p4d,p5d,hid), v2sub(h3d,h2d,p6d,h7d) 
do p4=1,p4d 
do p5=1,p5d 
do p6=1,p6d 
do hi=i,hid 
do h7=1,h7d 
do h2-1,h2d 
do h3=1,h3d 
triplesx(h3,h2,hi,p6,p5,p4) = triplesx(h3,h2,h1,p6,p5,p4) 
- t2sub(h7,p4,p5,h1)*v2sub(h3,h2,p6,h7) 
enddo 
end 





图 17-7 NWChem 的 内 核 样 例 (sd t dl 1) 


有 了 分 析 得 到 的 结论 ， 我 们 就 明白 了 如 何 将 NWChem 的 CCSD (T) 迁移 到 Intel Xeon Phi 
协 处 理 锅 上 。 务 载 到 协 处理 器 上 的 内 核 图 数 是 sd t_dXx Y, 这 个 函数 在 代码 上 是 完全 计算 
密集 的 片段 。ccsd d doubles 1 2 困 数 是 所 有 内 核 调 用 的 普通 定位 点 ， 同 时 我 们 将 给 
Fortran 代码 引入 缉 载 指令 ， 从 而 使 得 协 处 理 带 处 理 内 核 孔 数 并 且 优 化 定位 点 中 的 数据 传输 。 


17.5 HRH 


Intel Xeon Phi 协 处 理 硕 文 持 多 种 熏 载 编程 模型 ， 每 种 都 有 自己 的 特点 ， 只 有 Intel LEO 
( Language Extension for Offloading) 一 一 尽管 在 OpenMP 4.0 中 的 target 结构 可 用 之 前 一 种 
专用 印 载 语 言 一 一 提供 了 本 章 优化 所 
ae 3 H zd define ALLOC alloc if(.true.) free if(.false.) 
十 要 的 数据 伟 输 和 控制 的 买 消 性 ， 并 #define FREE alloc_if(.false.) free_if(.true.) 
上 且 这 种 拓展 对 于 现存 Fortran 源 代码 只 #define REUSE alloc if(.false.) free if(.false.) 


做 增 量 修改 。 


cdir$ offload target(mic:mic device) 


我 们 所 采用 的 最 重要 的 LEO 指令 in(triplesx:length(0) REUSE) 
将 在 图 17-8 中 展示 ， 这 些 指令 用 来 在 IER LMD oo 
. in(p6d,p5d,p4d,h7d 
主机 和 协 处 理 器 间 转 移 数据 。 in(t2sub:length(1_t2sub) REUSE) 


3X8 EA] HE AE RR A A aR RR in(v2sub:length(1_v2sub) REUSE) 


案 的 主要 步骤 如 下 。 图 17-8 用 于 传输 数据 和 实现 从 主机 到 协 处 理 器 的 控制 
1. triplesx 6 维 数组 (st (17-18) FIER SE 
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"Bit (PIV TID) ) 首先 在 协 处 理 器 上 创建 并 初始 化 为 0 (因此 此 处 不 需要 数据 转移 ) 。 

2. 接 下 来 ， 如 图 17-8 所 示 ， 在 调用 每 个 sd t dx YARRA, MAINES. 
其 中 ,每 个 sq t dX YARRA FH v2sub fll t2sub 这 两 个 四 维 数 组 相 乘 。 而 对 于 
triplesx 数组 ， 现 阶段 没 必要 传输 这 个 数组 的 数据 。 在 御 载 阶段 ， 我 们 直接 在 协 处 理 器 上 
累加 v2sub 和 t2sub 相 乘 的 结果 。 传 输 两 个 四 维 数组 是 仅 有 的 数据 传输 。 它 们 首先 在 主机 
上 计算 然后 复制 到 协 处 理 器 上 (鉴于 数组 的 大 小 要 求 在 小 于 1 微 秒 内 完成 )。 我 们 使 用 同步 
HRR: 主机 线程 和 内 核 在 等 待 从 协 处 理 器 返回 数据 的 时 候 处 于 闲置 状态 。 

3. 当主 机 内 核 闲 置 并 等 待 从 协 处 理 器 返回 结果 时 ， 我们 在 相同 的 节点 上 使 用 空闲 的 内 核 
执行 男 一 个 GA 进程 的 线程 。 使 用 这 个 方法 ,我 们 能 够 重用 GA 现存 的 负载 均衡 的 设施 。 这 
保证 了 协 处 理 器 上 的 进程 ， 同 主机 CPU 之 间 的 负载 不 均衡 是 自动 补偿 的 。 异 步 印 载 将 需要 
把 现存 的 负载 均衡 设施 扩展 为 将 异步 负载 均衡 考虑 进去 的 两 阶段 算法 。 在 17.7 节 我 们 会 看 
到 这 方面 的 更 多 内 容 。 

4. 一旦 所 有 结果 计算 出 来 ， 在 每 个 任务 结束 的 时 候 大 的 6 维 triplesx 数组 就 从 协 处 
理 器 一 次 性 复制 到 主机 端 。 在 每 个 任务 中 ， 一 个 特定 内 核 执行 的 次 数 正 比 于 占据 的 noab 块 
总 数 ( 式 (17-18 ) 中 的 4 项 ) 或 者 未 占据 的 nvab 块 总 数 (st (17-18) PAY BI). 

图 17-9 总 结 了 上 述 数 据 管理 和 外 载 步 又。 为 了 简洁 ， 我 们 只 用 伪 代 码 展 示 了 代码 的 结 
构 并 且 使 用 sa t ax Y ER 18 个 计算 内 核 的 代表 。 


cdir$ offload transfer target(mic:dev) nocopy(triplesx:length(tsx 1) ALLOC) 
cdir$ offload transfer target(mic:dev) nocopy(t2sub:length(t2sub. 1) ALLOC) 
cdir$ offload transfer target(mic:dev) nocopy(v2sub:length(v2sub 1) ALLOC) 
cdir$ offload target(mic:dev) nocopy(triplesx:length(0) REUSE) 
call zero triplesx(triplesx) 
dO us; 
if (...) 
cdir$ offload target (mic:dev) 
in(triplesx:length(0) REUSE) 
in(h3d,h2d,hid) 
in(p6d,p5d,p4d,h7d) 
in(t2sub:length(1_t2sub) REUSE) 
in(v2sub:length(1_v2sub) REUSE) 
call sd t dX Y(h3d,h2d,hid,p6d,p5d,p4d,h7,triplesx,t2sub,v2sub) 
endif 
enddo 


cdir$ offload transfer target(mic:dev) out(triplesx:length(tsx 1) REUSE) 





图 17-9 ccsd d doubles 1 2 函数 使 用 印 载 数据 管理 和 转移 控制 指令 的 伪 代 码 , 使 用 sd t 
dx Y 作 为 18 个 要 调用 的 内 核 的 示例 


17.6 ”内 核 优 化 


如 17.4 节 的 循环 分 析 展 示 ， 使 用 原始 代码 实现 的 线程 分 配 和 向 量化 操作 sad t ax YA 
核 函 数 无 法 充分 利用 协 处 理 器 。 因 此 ， 有 必要 对 代码 做 一 些 改进 。 本 节 将 展示 如 何 优化 Fortran 
代码 ， 这 些 改变 将 提升 每 个 计算 内 核 的 线程 效率 和 回 量化 能 力 。 因 为 这 些 内 核 优化 方法 具 
有 相似 性 ， 所 以 只 讨论 一 部 分 示例 内 核 的 情况 。 就 像 先前 提 到 的 ， 我们 的 目标 是 保证 Fortran 
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代码 尽 可 能 不 修改 ， 同 时 如 果 修 改 代码 ， 优 化 必须 同时 提升 协 处 理 融 和 主机 的 执行 效率 。 

代码 优化 也 是 一 项 需要 效率 的 工作 ， 我 们 不 会 用 底层 编程 模型 (比如 C/C++) 去 重新 写 
代码 。 除 了 修改 Fortran 代码 之 外 ， 我 们 将 完全 依赖 Fortran 的 Intel Composer XE 2013 MIE 
对 OpenMP 的 实现 来 实现 自动 呵 量 化 。 

图 17-10 展示 了 我 们 将 要 应 用 到 OpenMP 指令 ， 这 些 指 令 要 加 入 到 图 17-7 的 内 核 中 。 
因为 外 层 循环 的 循环 计数 少 (计数 大 概 只 有 20 一 30， 具 体 情 况 依据 输入 块 的 大 小 而 变化 )， 
对 于 Intel Xeon Phi 协 处 理 器 来 说 ， 并 不 能 提供 足够 的 并 行 性 。 我 们 使 用 collapse FAK 
指引 OpenMP 编译 器 将 多 个 外 层 循环 融合 成 一 个 乘积 循环 。 这 个 操作 会 使 得 每 个 循环 的 循 
环 计数 至 少 比 原先 的 最 外 层 循环 多 两 个 数量 级 。OMPCOLLAPSE 这 个 参数 在 NWChem 编译 
过 程 中 可 以 用 来 调整 循环 展开 的 情况 。 对 于 绝 大 多 数 输 入 集 ， 我们 的 试验 已 经 展示 了 这 个 参 
数 的 最 佳 估 值 是 3。 这 意味 着 把 p4-p6 循环 融合 为 单个 长 时 间 运 行 的 乘积 对 于 提升 效率 是 
最 有 效 的 。 


subroutine sd t di 1(h3d,h2d,hid,p6d,pb5d,p4d, 
1 h7d,triplesx,t2sub,v2sub) 
integer h3d,h2d,hid,p6d,p5d,p4d,h7d,h3,h2,h1,p6,p5,p4,h7 
double precision triplesx(h3d*h2d,hid,p6d,p5d,p4d) 
double precision t2sub(h7d,p4d,p5d,hid), v2sub(h3d*h2d,p6d,h7d) 
!$omp parallel do private(p4,p5,p6,h2,hi,h3,h7) collapse(OMPCOLLAPSE) 
do p4=1,p4d 
do p5=1,p5d 
do p6=1,p6d 
do hi=i,hid 
do h7=1,h7d 
!dec$ loop count max-1000, min-20 
do h3h2-1,h2d*h3d 
triplesx(h3h2,hi,p6,p5,p4) = triplesx(h3h2,h1,p6,p5,p4) 
- t2sub(h7,p4,p5,h1)*v2sub(h3h2,p6,h7) | 


enddo 
!$omp end parallel do 
end 





图 17-10 使 用 OpenMP 和 手动 循环 融合 的 图 17-7 所 示 示 例 内 核 


对 于 Intel Composer XE 来 说 ， 内 存 循 环 是 非常 适合 做 自动 回 量 化 的 。 它 既 不 包含 影响 
循环 的 依赖 性 (这 会 阻止 回 量化 )， 也 没有 出 现 非 一 致 步 长 的 情况 。 尽 管 看 上 去 非常 完 
但 回 量 化 内 层 循环 的 结果 并 不 高 效 。 问 量化 潜力 表明 了 一 个 问 量 寄存 如 的 平均 填充 程度 和 问 
量化 效率 。 越 高 的 向量 化 潜力 就 意味 着 寄存 硕 中 的 更 多 疝 量 通道 在 计算 中 被 使 用 。 在 最 优 的 
情况 下 ， 向 量化 潜力 接近 100%， 这 就 意味 着 向 量 指令 在 向 量 寄存 胡 中 全 程 满 负 答 工作 。 

在 该 示例 中 ， 回 量化 潜力 在 块 大 小 为 20 的 时 候 大 概 为 83%。 因 为 块 大 小 通常 不 是 向 量 
宽度 的 倍数 ， 所 以 编译 器 需要 发 出 一 个 剩余 的 循环 ， 这 个 循环 用 来 考虑 多 余 的 循环 迭代 。 对 
于 一 个 回 量 宽度 是 8 个 双 精 度 元 又 和 一 个 大 小 为 20 的 块 ， 回 量化 的 循环 将 会 处 理 16 CR 
( PA sd 4 [u] ft E RE), GEAR TRAST 4 KER, MORE, OBC TK Ie et AH AS EH AY e) E 
化 潜力 是 每 向 量 6.6 个 元 素 或 者 说 83% 的 使 用 率 。 

手动 融合 两 个 最 内 层 循环 (h3 n2 融合 为 一 个 h3h2 循环 ) 使 循环 潜力 接近 100%. 
因为 手动 融合 循环 后 ， 循 环 的 计数 提升 了 最 少 一 个 数量 级 。 对 于 上 述 大 小 为 20 的 块 的 情况 
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来 说 ， 问 量化 潜力 也 达到 了 最 优 。h2h3 循环 要 运行 20*200( 400 ) 1X 351X,400 是 8 的 倍数 ， 
向 量化 潜力 因此 得 到 了 提升 。 融 合 内 层 循环 也 带 来 了 额外 的 性 能 提升 ， 因 为 一 些 循环 开销 与 
两 个 ( 短 ) 般 套 循环 相关 ， 现 在 我 们 有 效 避 免 了 乘积 循环 并 减少 了 开销 。 

除了 代码 变换 之 外 ， 我 们 也 使 用 Intel Composer XE for Fortran 的 编译 指令 。 这 些 指令 
如 图 17-10 所 示 。 这 些 指令 告诉 编译 器 期 望 的 最 小 和 最 大 的 内 层 舱 套 循环 的 计数 。 通 过 17.4 
节 的 循环 分 析 获 得 这 些 信息 。 没 有 指令 ， 编 译 髓 无 法 了 解 循环 计数 ， 并 且 会 过 高 估计 实际 执 
行 的 迭代 次 数 。 对 于 一 些 内 核 来 说 ， 这 往往 会 使 得 编译 器 优化 起 到 反 效 果 ( 比 如， 不 正确 的 
循环 阻塞 或 者 循环 展开 )， 这 些 对 协 处 理 器 来 说 会 阻碍 最 优 向 量化 。 避 免 这 些 自 动 编译 器 转 
换 (通过 增加 编译 指令 ) 能 大 致 提升 10% 的 性 能 。 

在 有 18 个 sd 上 dX Y 因 数 的 集合 中 ， 一 些 内 核 的 向 量化 并 不 尽 如 上 述 方法 那样 简单 
Afi. E 17-11 展示 了 其 中 一 个 出 问题 的 内 核 。 如 果 这 个 内 核 按照 上 述 代码 进行 编译 ， 编 译 
需 为 了 访问 上 2sub 将 会 发 出 、 聚 集 并 且 扩 散 指令 。 实 际 上 要 提升 这 类 循环 般 套 的 效率 并 不 
容易 。 循 环 h2,h7,h3 和 h2 的 任何 排列 至 少 会 对 一 个 数组 的 访问 引入 聚集 /扩散 指令 。 然 
而 ， 如 果 t2sub 被 转 置 ， 就 能 避免 聚集 /扩散 指令 ， 而 且 这 使 用 单位 步 长 的 读 取 操 作 能 够 
很 好 地 向 量化 。 这 些 转换 可 以 提升 类 似 图 17-11 中 内 核 的 效率 ， 并 且 这 个 转换 并 没有 影响 其 
他 内 核 的 运行 。 访 问 t2sub 必须 使 用 这 样 的 循环 ， 同 时 转 置 t2sub 对 内 核 的 其 他 计算 来 说 
没有 任何 不 同 。 这 个 转 置 操作 是 紧 接 着 从 其 他 进程 接收 到 数据 之 后 在 主机 进程 上 完成 的 ， 相 
比 于 内 核 在 目标 设备 上 的 运行 时 间 来 说 ， 这 点 时 间 消 耗 微 不 足 道 。 事 实 上 ， 这 个 开销 将 完全 
掩盖 在 系统 噪声 中 。 


subroutine sd t dí 1(h3d,h2d,hid,p6d,p5d,p4d, 
i h7d,triplesx,t2sub,v2sub) 
integer h3d,h2d,hid,p6d,p5d,p4d,h7d,h3,h2,hi,p6,p5,p4,h7 
double precision triplesx(h3d*h2d,hid, p6d, p5d, p4d) 
double precision t2sub(h7d,p4d,p5d,hid), v2sub(h3d*h2d,p6d,h7d) 
parallel do private(p4,p5,p6,h2,hi,h3,h7) collapse(O0MPCOLLAPSE) 
do p4-1,p4d 
do p5-1,p5d 
do p6-1,p6d 
do h2-1,h2d 
do h3=1,h3d 
do h7=1,h7d 
do hi=1,hid 
triplesx(hi,h3,h2,p6,p5,p4) = triplesx(h1,h3,h2,p6,p5,p4) 
C - t2sub(h7,p4,p5,h1)*v2sub(h3,h2,p6,h7) 


enddo 
!$omp end parallel do 
end 





图 17-11 使 用 非 一 致 步 长 内 存 访问 的 NWChem fj sa t dl 1 内 核 


17.7 性 能 评估 

我 们 实现 的 NWChem 可 以 高 效 并 行 运行 在 由 460 个 节点 组 成 的 集群 上 。 这 个 集群 由 双 
jfi fé 8 核 Intel Xeon E5-2670 2.6GHz 处 理 器 和 128GB 内 存 所 构成 。 每 个 节点 有 两 个 60 核 
Intel Xeon Phi 5110P 1.053MHz 协 处 理 器 和 8GB 的 片上 GDDR5 内 存 。 这 意味 着 共有 7360 
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个 Xeon 处 理 器 内 核 和 62 560 个 异 构 内 核 可 以 用 于 提供 卸载 计算 。 作 为 基准 测试 ， 我 们 使 用 
IFE (closed shell) 并 五 茶 分 子 ( CzHi4) 上 计算 CCSD(T) 相关 能 量 的 矫正 。 这 个 基准 测试 
的 块 大 小 是 24， 这 不 超过 8GB 片上 可 用 内 存 的 限制 。 

从 更 专业 的 化 学 角度 讲 ， 输 入 数据 对 于 378 个 基础 函数 来 说 使 用 了 一 个 cc-pVDZ 基础 
集合 ， 使 用 了 51 个 相关 的 占据 的 轨道 (在 一 个 冷冻 核 近似 中 )， 以 及 305 个 未 占据 的 相关 轨 
道 。 测 试 计算 中 没有 使 用 对 称 性 。 

对 于 集群 来 说 ， 最 好 的 异 构 启 动 是 每 个 节点 运行 8 个 GA 进程 。 这 8 个 进程 中 的 4 个 在 
主机 上 执行 并 产生 4 个 线程 ， 这 样 就 能 够 充分 利用 所 有 16 个 主机 内 核 。 其余 的 4 个 进程 并 
发 运行 在 协 处 理 需 设备 上 。 因 为 所 有 的 全 载 是 异步 操作 ， 所 以 主机 进程 将 会 在 等 待 印 载 结果 
时 运行 其 他 计算 。 其 他 〈 仅 在 主机 上 的 ) 进程 能 够 借助 其 OpenMP 线程 使 用 空闲 内 核 。 这 就 
是 为 什么 我 们 可 以 在 主机 系统 上 超额 使 用 16 个 OpenMP 线程 。 

受到 第 12 章 的 启发 ,我们 并 发 地 在 多 主机 进程 向 相同 设备 启动 抒 载 。 第 一 个 进程 分 配 
给 第 一 个 目标 设备 的 第 一 部 分 (第 0 ~ 28 个 内 核 )， 第 二 个 进程 分 配给 第 一 个 目标 设备 的 第 
二 部 分 (第 28 一 57 个 内 核 )。 它 们 都 在 一 个 物理 内 核 上 执行 4 个 超 线 程 ， 这 就 对 应 了 116 
个 OpenMP 线程 。 通 常 我们 留 两 个 空闲 内 核 给 操作 系统 ， 以 及 用 来 处 理 数据 转移 。 相 对 应 
地 ， 第 三 和 第 四 个 进程 执行 第 二 个 协 处理 器 的 第 一 和 第 二 部 分 。 

在 协 处 理 需 中 为 每 个 印 载 分 配 了 相应 的 内 存 : triplesx 数 组 需要 占 大 约 1.5GB, 而 
每 个 t2sub fl v2sub MAA AKA 2.7MB。 如 果 我 们 使 用 协 处理 器 上 的 大 页 ， 那 么 就 可 以 
减少 在 数据 传输 和 计算 时 发 生 的 页 错误 次 数 ， 从 而 减少 大 概 30% 的 数据 传输 时 间 。 我 们 也 
减少 了 因为 协 处 理 咒 上 的 TLB 未 命中 而 融 来 的 额外 损失 。 对 于 每 个 印 载 线程 ， 使 用 MIC __ 
USE 2MB BUFFERS 环境 变量 设 定 16KB 的 大 页 。 这 个 值 设 定 了 大 页 上 可 以 存储 16KB 以 
上 的 数据 ， 这 在 本 例 中 是 足够 直接 传输 到 内 存 大 页 上 的 。 

如 图 17-12 Bras, SERA TIE ( " Xeon" & “Xeon Phi” ) 相 比 纯粹 的 主机 架构 CAL 
A Xeon”) AKA 2.5 倍 的 加 速 比 。 我 们 的 实现 可 以 让 全 部 460 个 节点 上 的 协 处 理 器 保持 
性 能 优势 。 我 们 也 测试 了 单个 协 处 理 器 配置 下 的 性 能 。 我 们 忽略 了 主机 上 的 计算 量 并 只 用 主 
机 进程 作为 通信 桩 (它们 仅 用 于 消息 传递 并 立即 转换 给 协 处 理 器 )。 因 此 ， 相 对 于 异 构 实现 ， 
单个 协 处 理 器 的 配置 会 使 性 能 大 约 下 降 0.77 — 0.90。 这 证 明 真 实 的 异 构 计算 能 够 有 效 地 使 
用 全 部 的 Xeon 和 Xeon Phi 计算 资源 。 

从 第 二 个 扩展 的 基准 测试 可 以 看 到 ， 一 个 1,3,4,5-tetrasily-limidazol-2-ylidene 分 子 (化 
学 式 为 SsC3N2H1is) 处 于 三 元 组 状态 。 基 准 测试 建立 起 来 ， 这 样 对 于 全 部 706 个 基础 函数 可 
以 使 用 一 个 aug-cc-pVTZ 基础 集 ， 在 冷冻 的 核 近似 中 使 用 26 个 相关 的 a 被 占据 的 轨道 (24 
个 相关 的 8 被 占据 的 轨道 ) 和 655 个 未 被 占据 的 a (657 个 未 被 占据 的 8) 轨道 。 这 次 ， 我 们 
在 测试 计算 中 也 没有 使 用 对 称 性 (图 17-13 )。 

第 二 个 基准 测试 有 更 高 的 浮 点 性 能 要 求 ， 因 此 使 用 御 载 协 处 理 器 模式 会 有 优异 的 加 速 
比 。 在 异 构 环境 下 ， 结果 比 仅 有 主机 的 TCE 节点 高 了 2.7 fi. 


17.8 总结 


在 Intel Xeon XbF# MI Intel Xeon Phi 协 处 理 器 搭建 的 异 构 环境 计算 能 够 加 快 求 解 科 学 
应 用 的 速度 。NWChem 化 学 包 是 一 个 将 这 些 原 则 应 用 到 实际 的 范例 。 比 起 传统 的 优化 方法 ， 
Intel Xeon Phi 协 处理 硕 是 一 种 更 好 的 选择 。 使 用 相同 的 编程 工具 ，Intel Xeon Phi 协 处 理 咒 
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就 可 以 达到 目的 。 


CPU 线程 数 
768 1536 3072 6144 7360 


6—9 (y Xeon #0 Xeon Phi 
全 -© (y Xeon Phi 
F -7 {X Xeon 





6528 13 056 26 112 52 224 62 560 
Xeon Phi 和 CPU 线程 数 


图 17-12 并 五 芋 分 子 ( CzzHi2) 对 CCSD (T) 相关 能 量 的 三 元 组 扰动 修正 (在 s 中 ) 的 时 间 。 所 有 坐标 
轴 的 数字 都 取 对 数 


CPU 线程 数 
512 1040 2080 3680 5760 7360 


@—®@ 仅 Xeon 和 Xeon Phi 
v -y {2 Xeon 
E - 12 Xeon Phi 





3840 7800 27600 43 200 55200 


Xeon Phi ££ 

图 17-13  1,3,4,5-tetrasily-limidazol-2-ylidene 分 子 ( SigC3N2Hi2) 在 三 元 组 状态 下 
对 CCSD(T) 相关 能 量 的 三 元 组 扰动 修正 (在 s 中 ) 的 时 间 。 所 有 坐标 
轴 的 数字 都 取 对 数 
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我 们 对 NWChem CCSD(T) 的 异 构件 载 解决 方案 展示 了 在 大 规模 集群 上 不 但 可 能 获得 高 
性 能 而 且 具 有 可 行 性 ， 该 方案 依赖 于 标准 编程 语言 (Fortran) 和 并 行 编程 方法 (OpenMP), 
这 些 建 立 的 块 很 适合 将 需要 的 内 核 以 最 高 速度 印 载 到 协 处 理 右 上 并 且 不 损失 工具 链 的 生产 效 
率 。 在 主机 和 协 处 理 器 上 使 用 相同 的 编程 模型 也 能 优化 进程 ， 因 为 所 有 对 协 处 理 器 做 的 改进 
也 能 立即 在 主机 端 提升 性 能 。 

决定 哪些 部 分 用 作 和 载 的 分 析 方 法 ， 可 以 得 到 一 个 简单 的 移植 过 程 。 使 用 这 个 分 析 步 又 
发 现 热点 ， 发 现 可 以 用 于 鲫 载 的 固定 点 并 分 析 循 环 ， 循 环 分 析 可 以 为 代码 优化 提供 有 价值 的 
信息 。 接 着 使 用 这 些 信息 去 决定 代码 中 哪 部 分 要 被 和 卸载 到 协 处 理 器 上 。 分析 它 们 的 调用 树 从 
而 发 现 数据 和 种 载 转换 的 最 佳 位 置 。 最 后 分 析 计 算 内 核 的 结构 并 提升 它们 的 向 量化 和 并 行 化 
潜力 。 

借助 Intel Xeon Phi 协 处 理 恬 额外 的 计算 部 件 并 使 它 加 速 可 得 到 NEWChem 的 高 精度 
CCSD(T) 方法 ， 并 且 有 助 于 实现 更 精确 的 仿真 (进一步 讨论 参见 Apra et al.,2014 )。 并 设 有 
使 不 精准 系统 中 算法 更 简单 的 仿真 范围 变 罕 (比如 针对 闭 壳 分 子 系统 的 Kobayashi-Rendell 
F), CCSD(T) 方法 可 以 广泛 应 用 到 不 同 的 分 子 系统 类 型 中 ( 开 帝 未 配对 的 电子 )。 因 为 更 
高 的 仿真 精度 会 产生 更 高 的 计算 强度 。 应 用 不 能 只 仿真 小 分 子 系统 ， 也 不 应 有 较 大 的 时 间 开 
fH. SIZE NWChem CCSD(T) 方法 大 致 提升 了 3 倍 的 性 能 ， 这 些 提升 弥补 了 NEWChem if 
算 上 的 缺陷 ， 让 它 可 以 进行 高 精度 仿真 并 减少 求解 时 间 。 

Intel Xeon Phi 协 处 理 磊 上 的 工作 应 该 可 以 迁移 到 下 一 代 Intel Xeon Phi 产品 上 (代号 为 
Knights Landing (KNL))， 这 代 世 片 预计 可 以 作为 基于 套 接 字 的 解决 方案 ， 这 使 得 不 再 需要 
地 载 内 核 到 协 处 理 硕 上 ， 并 提供 了 一 些 高 带宽 的 内 置 存储 器 。KNL 的 单线 程 性 能 预计 是 今 
天 的 Intel Xeon Phi 协 处 理 器 的 三 倍 。NWChem 的 CCSD(T) 方法 的 其 他 部 分 可 以 在 众 核 芯 
片上 处 理 ， 不 需要 使 用 协 处 理 咒 。 我 们 已 经 实现 的 基于 协 处 理 器 的 OpenMP 并 行内 核 可 以 
作为 一 个 起 点 ， 用 这 些 代 码 可 以 逐渐 完成 多 线程 的 内 核 。 我 们 预计 ， 一 个 真正 的 混合 GA / 
OpenMP 实现 将 需要 充分 利用 KNL 处 理 需 的 性 能 。 提 高 剩余 代码 库 的 向 量化 潜力 也 是 一 个 
需要 做 的 工作 。 该 内 置 存 储 带 应 该 是 一 个 有 趣 的 优化 目标 ， 优 化 它 可 以 提升 NWChem 内 存 
访问 的 局 部 性 。 


17.9 Sil 


这 里 描述 的 研究 成 果 是 EMSL 完成 的 ，EMSL 是 科学 用 户 设施 DOE 办 公 室 ， 位 于 太平 
洋 西北 国家 实验 室 ， 由 生物 和 环境 研究 办 公 室 赞助 。 


17.10 更 多 信息 


NWChem 6.5 版 本 的 代码 和 额外 信息 可 以 从 http://lotsofcores.com/NWChem 获得 。 
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本 章 提 出 了 一 种 在 Intel Xeon Phi 协 处 理 需 和 Intel Xeon ALE AS E Hx EJFTTRJZI iE, ix 
两 种 处 理 器 都 包含 大 量 内 核 ， 并 使 用 非 一 致 性 内 存 访 问 (NUMA)。 目 前 的 解决 办 法 是 基于 
Intel 线程 构建 模块 (Intel TBB) 任务 平台 的 。 


18.1 动机 


最 近 Intel Xeon 处 理 占 和 Intel Xeon Phi 协 处 理 需 在 内 核 数 量 上 的 增加 使 我 们 开始 重新 
审视 并 行 库 中 所 采取 的 方法 。 一 般 来 说 ， 我 们 已 经 觉察 到 可 扩展 性 已 经 成 为 一 个 问题 A 
是 ， 当 处 理 的 数据 总 量 保 持 不 变 时 ， 如 果 有 更 多 线程 需要 同步 ， 那 么 一 个 线程 库 的 开销 会 趋 
于 增长 。 其 结果 是 ， 整 个 内 核 的 可 扩展 性 都 会 受到 影响 。 一 些 应 用 程序 是 由 任务 并 行 原则 驱 
动 的 ， 或 者 有 并 行 地 运行 多 个 任务 的 能 力 ， 并 且 也 可 以 数据 并 行 驱动 (在 一 个 数据 集中 有 并 
行 运行 单个 任务 的 能 力 )。 任 务 和 数据 并 行 的 组 合 提 供 了 一 个 可 以 最 小 化 线程 库 开 销 的 机 会 。 

NUMA 鼓励 使 用 一 种 方法 来 最 小 化 内 部 节点 间 的 存储 传输 ， 即 对 于 特定 的 节点 本 地 化 
执行 数据 并 行 任务 同 本 章 讨 论 的 其 他 方法 一 起 使 用 。 现 代 的 Intel Xeon 4b FEE AY IRS Ar 
系统 通常 有 两 个 或 多 个 NUMA TA (CPU 择 槽 )。 每 一 个 节点 都 有 其 自己 的 一 套 存 储 体 ， 并 
由 多 个 处 理 需 (内核 ) 组 成 。 一 个 节点 中 独立 的 处 理 器 可 以 通过 Intel Quick Path Interconnect 
(Intel QPI)， 总 线 访 问 另 一 个 节点 中 的 存储 体 。 然 而 ， 这 样 的 访问 会 导致 通信 延迟 。 但 是 ， 
线程 库 (如 Intel TBB)， 对 于 在 以 最 有 效 的 方式 匹配 用 户 的 数据 布局 与 NUMA 拓扑 结构 这 个 
问题 上 ， 并 没有 什么 帮助 。 任 务 可 以 在 整个 系统 里 扩展 以 充分 并 行 开发 ， 把 它们 映射 在 一 个 
NUMA 市 点 的 范围 内 ， 可 以 使 之 更 有 效率 。 

这 种 方法 已 经 应 用 于 STAC A2 基准 测试 ， 并 且 已 经 通过 简单 地 使 用 线程 或 者 多 任务 库 
使 得 性 能 大 幅度 提升 。 


18.2 ”基准 测试 


为 了 本 章 的 目的 而 开发 出 来 的 一 个 人 工 基准 测试 ， 是 用 来 测试 Intel Xeon Phi 协 处 理 需 
上 线程 库 的 开销 和 实体 存储 器 局 限 性 的 ， 并 测量 NUMA XT Z fS Intel Xeon 平台 的 影响 。 
基准 测试 的 内 核 任务 计算 一 个 双 精 度 浮 点 数组 的 平方 根 。 被 选中 数组 的 尺寸 足够 大 以 超过 
处 理 套 最 后 一 级 缓存 (LLC) 的 大 小 ， 从 而 迫使 产生 DRAM 存储 访 存 并 增 大 NUMA 的 开 
销 。 每 个 内 核 任务 实例 ， 通 过 一 个 工作 线程 执行 ， 并 被 配置 成 可 以 持续 足够 长 的 时 间 ， 以 模 
拟 真 正 工 作 负 载 的 计时 。OpenMP 4.0 simd 指令 用 来 生成 在 现代 处 理 右 上 可 用 的 向 量 指令 。 
图 18-1 列 出 了 基准 测试 的 主 循环 。 完 整 的 基准 测试 源 代码 可 在 http://lotsofcores.com 获取 。 

除了 在 一 个 内 核 任 务 内 执行 数据 并 行 的 并 行 循环 之 外 ， 一 个 内 核 任 务 的 多 个 实例 是 同时 
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执行 的 ， 因 此 呈现 出 额外 的 任务 (或 者 功能 ) 并 行 。 这 种 执行 方案 产生 多 级 并 行 ， 这 也 称 为 
钳 套 并 行 ， 由 于 并 行 循 环 被 髓 套 进 多 重 并 行 执行 的 任务 中 。 


#define DATA SIZE  (32*1024*1024) 

#define BLOCK SIZE (4*1024) 

typedef std::vector«double, 
tbb::cache aligned allocator«double» » 
data vector t; 

void compute sqrt block(const double* src, double* dst, 

int begin, int end) 
{ 


#pragma omp simd aligned(src, dst: 64) 
for(int i=begin; i<end; ++i) { 
dst [i] = sqrt(sre[i]); 


void kernel task() { 
data vector t src(DATA SIZE); 
data vector t dst(DATA SIZE); 
// Generate input data 
tbb::parallel for(0, DATA SIZE, BLOCK SIZE, 
[&] (int i) { 


auto rand val - std::bind(distribution, generator); 
int begin - i, 
end = std::min(i+BLOCK SIZE, DATA SIZE); 
for( int j=begin;j<end;++j) 
src[i] = rand val(); 
) i 
// Perform multiple iterations on the same data block 
tbb::affinity partitioner partitioner; 
for(int t=0; t«ITERATIONS; ++t) { 
tbb::parallel for(0, DATA SIZE, BLOCK SIZE, 
[&] (int i) ( 
int begin - i, 
end - std::min(i«BLOCK SIZE, DATA SIZE); 
#pragma noinline 
compute sqrt block(&src[0], &dst[0], begin, end); 
), partitioner); 





图 18-1 基准 测试 内 核 任 务 例 程 ， 基 于 Intel TBB 模型 


18.3 ”基线 基准 测试 


上 面 提 到 的 基准 测试 的 性 能 评估 是 在 最 新 可 用 的 Intel 平 台 上 执行 的 。 系 统 由 双 插 村 
Intel Xeon E5-2695 v2 Xb 3 25 All Intel Xeon Phi 7120A 协 处 理 需 组 成 。Intel Composer XE 
2013 SP1 更 新 了 3 个 编译 器 用 来 为 Intel Xeon 处 理 器 和 Intel Xeon Phi 协 处 理 器 提供 编译 。 
使 用 三 个 不 同 的 线程 库 Intel TBB 4.2, OpenMP 4.0 和 Intel Cilk Plus 来 评估 。GCC 4.7 或 更 
高 版 本 在 测试 机 上 对 于 C++11 特性 的 支持 是 有 效 的 。 

基准 测试 的 目标 是 尽 可 能 快 地 并 行 执行 一 数据 池 的 任务 。 由 于 每 个 任务 需要 大 量 的 内 存 
用 于 执行 ， 因 此 同时 运行 的 任务 数量 会 被 可 用 的 实体 存储 右 的 数量 所 限制 ， 如 在 Intel Xeon 
Phi 协 处 理 侣 上 。 

图 18-2 根据 处 理 的 任务 数量 描述 了 线程 库 的 效率 ， 与 在 Intel Xeon Phi 7120A 协 处 理 需 
上 的 测量 方法 相同 。 效 率 的 最 优 值 为 1， 定义 如 下 : 
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xb, Te RETE N 个 内 核 的 机 器 上 执行 一 个 任务 的 最 佳 时 间 ，Tweu 是 在 相 


同 机 器 上 执行 M 个 任务 所 需要 的 时 间 ;， 因 此 emm, ”代表 一 个 任务 的 有 效 执行 时 间 。 测 
量 时 间 不 包括 线程 库 的 初始 化 时 间 。 

Intel TBB 和 Intel Cilk Plus 的 效率 值 均 接近 1。 不 过 ， 当 存储 资源 达到 临界 点 时 ， 效 率 
峰值 出 现在 临界 点 之 后 。 每 个 线程 库 有 不 同 的 行为 ， 这 取决 于 内 部 构件 的 调度 程序 。Intel 
TBB 的 效率 值 在 Mass = 20 之 后 大 大 降低 ， 但 是 在 Intel Xeon Phi 7120A 协 处 理 器 上 最 多 能 
够 处 理 34 个 任务 ，OpenMP 和 Intel Cilk + 只 能 分 别处 理 29 个 和 32 个 任务 。OpenMP 对 于 
这 个 基准 测试 的 效率 值 非常 低 ， 这 同 OpenMP 处 理 榜 套 并 行 的 方式 有 关 。 
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图 18-2 ”基准 测试 性 能 与 内 核 任务 数量 的 关系 


没有 一 个 线程 库 能 够 处 理 数量 大 于 最 大 值 的 任务 。 克 服 Intel Xeon Phi HAREAK H AI 
限制 和 缺乏 交换 空间 的 解决 方法 是 限制 同时 并 行 执行 的 内 核 任 务 的 数量 。 下 一 节 介 绍 的 两 
种 方法 通过 使 用 Intel TBB 的 功能 来 帮助 部 署 那些 设备 上 的 内 存 饥 饭 程 序 ， 尤 其 是 并 行 流水 
线 和 用 户 管理 任务 调度 平台 特征 。Intel TBB 库 并 没有 多 少 关 于 C++ 类 和 多 任务 应 用 支持 的 
设 定 。 


18.4 ”流水 线 方法 一 一 Flat_arena 类 


如 上 一 节 所 示 ， 线 程 库 同 时 高 效 执行 的 任务 数量 是 特定 的 。 此 需求 的 立即 执行 依靠 一 个 
众所周知 的 同步 原 语 信 号 量 ( semaphore)。 然 而 ， 在 一 个 工作 线程 内 使 用 一 个 信号 量 会 拖延 
该 线程 并 且 会 有 效 地 减少 计算 资源 量 。 因 此 ， 同 步 原 语 不 能 用 来 限制 执行 的 任务 数量 。Intel 
TBB 库 有 并 行 流水 线 结构 ， 这 可 以 用 来 限制 执行 任务 的 数量 。 

流水 线 的 特性 由 类 tbb::pipeline 成 员 或 者 通过 函数 tbb::parallel pipeline 成 员 提 供 ， 两 
者 使 得 类 型 安全 和 lambda 表达 式 有 效 。tbb::parallel pipeline 用 来 创建 一 个 由 一 系列 filter 流 
水 线 的 阶段 ) 组 成 的 流水 线 ， 以 用 于 一 连 串 的 条 目 。 每 个 filter 按 下 面 三 种 模式 中 的 一 种 来 
PME: 

e 并 行 一 一 无 序 地 并 行 处 理 一 个 filter 的 多 重 实例 。 

e 有 序 串 行 一 一 以 相同 的 顺序 一 次 处 理 一 个 filter 的 单个 实例 。 
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e. 无 序 串 行 一 一 无 序 地 一 次 处 理 一 个 filter 的 单个 实例 。 

流水 线 接口 的 其 中 一 个 参数 是 最 大 数量 的 活跃 令 牌 数 ， 在 任何 给 定时 间 内 该 参数 能 控制 
流水 线条 目的 数量 。 

图 18-3 展示 了 如 何 使 用 tbb::parallel pipeline 进行 任务 区 域内 的 任务 分 派 。 

给 出 的 parallel pipeline 实现 方法 要 求 任务 列表 要 事先 构建 。 不 过 ， 可 以 通过 加 强 初 步 
实现 处 理 动态 任务 地 提交 ， 例 如 使 用 tbb::concurrent queue. 

然而 ， 为 流水 线 地 执行 ， 转 化 程序 结构 可 能 会 不 太 方 便 。 在 最 外 层 ， 程 序 可 能 会 
过 parallel for, flow::graph a — TBB 算法 组 织 ， 这 可 能 会 使 得 程序 在 实际 中 难 
以 分 成 单独 的 任务 并 把 它们 人 工地 反馈 给 流水 线 ， 因 此 程序 可 能 会 失去 使 用 这 些 结构 的 
好 处 。 

一 个 替代 方法 是 基于 多 等 级 任务 调度 平台 的 ， 在 下 面 几 节 中 将 会 讲 到 ， 而 且 将 会 适合 于 

任何 类 型 的 高 级 TBB 算法 。 


parallel pipeline( /*max number of live token=*/16, 
make filter<void, std::function<void(void) > >( 
filter::serial, 
[&] (£1ow control& fc) ->auto{ 
if( !list.empty() ) 
std::function<void(void)> f = list.front(); 
list.pop front(); 
return f; 
) else { 
fc.stop(); 


return std: :function<void (void)>([]{}); 


}) & 
make filter< std::function<void (void) >,void> ( 
filter::parallel, 
oru. a aiii ii £) ->float 
E a 





图 18-3 使 用 tbb::parallel pipeline 在 调度 平台 内 进行 任务 分 派 


18.5 Intel TBB 用 户 管理 任务 调度 平台 


在 Intel TBB 术语 中 ， 一 个 任务 调度 平台 是 工作 线程 分 享 和 抢断 任务 的 地 方 。 每 个 应 用 
线程 或 者 主线 程 ， 通 过 Intel TBB 库 产生 的 工作 线程 帮助 维持 其 隐 式 的 任务 调度 平台 。 简 单 
来 讲 ， 工 作 线 程 初始 在 一 个 全 局 线程 池 ( 即 市 场 ) PEHEZ. FAZANA, TERTE 
加 入 任务 调度 平台 并 参与 任务 的 执行 。 

图 18-4 描述 了 一 个 应 用 中 的 多 个 任务 调度 平台 ， 并 举例 前 明了 由 Intel TBB 库 产生 工作 
线程 一 个 应 用 产生 主线 程 的 过 程 。 

随 着 并 发 控制 和 独立 任务 不 会 独自 对 应 到 应 用 线程 的 需求 的 产生 ，Intel TBB 4.1 版 本 对 
于 用 户 管理 (或 显 式 的 ) 任务 调度 平台 引进 了 一 个 团体 预览 特性 。 用 户 管理 任务 调度 平台 的 
接口 由 类 tbb::task arena 提供 。 当 产生 一 个 task_arena 时 ， 用 户 应 具体 指明 期 望 的 并 行程 度 
和 需要 为 应 用 线程 保留 多 少 并 行 性 。 

直到 Intel TBB 4.3 版 本 ， 作 为 Intel TBB 库 的 预览 特性 ,task arena 要求 TBB_ 
PREVIEW TASK ARENA 宏 在 编译 时 定义 ; 对 于 不 超过 4.2.1 的 版 本 ， 还 需要 同 预 览 的 二 
进 制 相连 接 。 然 而 ， 由 于 Intel TBB 4.2.1 版 本 所 有 必要 的 功能 都 存在 于 常规 二 进 制 库 中 并 且 
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没有 要 求 连接 到 特别 的 库 。 
用 户 管理 任务 调度 平台 示例 声明 如 图 18-5 所 示 。 在 这 个 例子 中 ， 任 务 调度 平台 由 4 个 
线程 插 权 产生 ， 为 一 个 主线 程 预 留 一 个 插 槽 。 
提交 任务 到 task arena 有 两 种 方法 : 
e task arena::enqueue() 一 一 异步 方法 ， 发 出 后 自 寻 方式 ,通过 提交 未 加 入 该 调度 平台 
的 线程 来 执行 ， 然 后 立即 返回 。 


TBB 工作 线程 





应 用 线程 





图 18-4 应 用 内 的 任务 调度 平台 


#define TBB PREVIEW TASK ARENA 1 // for TBB < 4.3 
#include «tbb/task arena.h» 
tbb::task arena user arena(4,1); 





[18-5 用 户 管理 任务 调度 平台 的 声明 





e task arena::execute() 一 一 同步 方法 ， 它 不 返回 ， 直 到 提交 任务 完成 。 如 果 可 能 ， 调 
用 者 线程 加 入 该 调度 平台 并 在 那里 参与 任务 的 执行 ， 如 果 线 程 不 能 加 入 该 调度 平台 ， 
在 当时 被 阻塞 以 完成 该 调度 平台 的 任务 。 
一 个 功能 类 或 者 一 个 C++11 lambda 表达 式 可 以 作为 工作 描述 符 来 论证 上 面 的 函数 。 
图 18-6 为 task_arena 提供 了 一 个 使 用 示例 。 
尽管 提交 异步 作业 到 task arena 是 可 | user arena.execute([&]() 


六 . T 
能 的 , 但 是 并 没有 显 式 的 方法 来 确定 异 // Some parallel work 
tbb::parallel for(0,N,[&](int i) { 


步 任务 完成 的 时 间 。 这 项 功能 通过 使 用 // Parallel kernel code 
tbb::task group 接口 来 获得 。 图 18-7 演示 "hag 

了 如 何 利 用 tbb::task group 接口 来 使 任务 
等 待 执行 。 图 18-6 ”在 调度 平台 内 执行 并 行 循环 
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tbb::task group waiting group; 


// Submit 1" asyncronious task 
user_arena.enqueue ( [&] { 
waiting group.run([&l[ 
// Some code section #1 


D: 


// Submit 2" asyncronious task 
user arena.enqueue([&]( 
waiting group.run([&] { 
// Some code section #2 


// Do some other work 


// Join calling thread to arena and wait for completion 
user arena.execute( [é&] { 
waiting group.wait(); 


P); 





18-7 异步 任务 并 且 等 待 task_arena 完成 


18.6 ”分 层 方法 一 一 Hierarchical arena 类 


用 户 管 理 任务 调度 平台 接口 有 一 个 很 好 的 特点 ， 它 提供 设置 调度 平台 并 发 性 的 功能 ， 在 
任务 被 提交 到 一 个 调度 平台 之 后 ， 通 过 控制 同时 运行 任务 的 数量 来 完成 ， 只 有 当 获 得 一 个 空 
闲 的 工作 线程 时 任务 才能 被 分 配 ， 并 加 入 到 调度 平台 中 。 这 个 性 质 使 用 在 一 个 hierarchical_ 
arena 类 里 的 分 层 方法 中 。 这 个 类 分 配 一 个 最 外 面 的 task. arena 来 控制 最 外 面 任务 的 并 发 性 。 
任务 被 重新 安排 到 层级 中 的 第 二 级 task arena 中， 在 那里 它 以 数据 并 行 的 方式 运行 。 第 二 级 
调度 平台 的 并 发 性 是 有 限 的 ， 所 以 两 个 层级 的 并 发 性 乘积 与 可 获取 的 线程 数 是 相 匹 配 的 。 

Intel TBB 的 默认 行为 并 没有 暗示 任何 线程 管理 ， 例 如 : 线程 相关 性 。 为 了 提高 数据 
局 部 性 ， 通 过 使 进入 第 二 级 调度 平台 的 线程 会 驻 留 在 相同 或 物理 上 最 近 的 内 核 的 方式 ， 
hierarchical arena 类 实现 在 最 近 的 逻辑 内 核 上 关联 工作 线程 。 通 过 这 种 方法 ， 数 组 中 最 近 
的 索引 会 被 共享 相同 缓存 的 硬件 线程 处 理 (这 会 降低 QPI 延迟 ) 和 其 他 有 限 的 内 核资 源 (如 
TLB， 这 也 会 降低 DRAM 内 存 访 问 延 迟 )。 完 整 hierarchical arena 类 的 实现 (包括 相关 性 和 
其 他 的 优化 方法 ) 在 arenas.h 中 可 获得 ， 参 考 18.10 节 。 

图 18-8 描绘 了 处 理 器 线程 和 调度 平台 间 的 分 配 。 这 个 图 展示 了 调度 平台 的 分 层 结 构 ， 
第 一 任务 级 上 有 4 路 的 并 发 性 ， 第 二 级 上 有 12 路 的 并 发 性 ， 总 共 构 成 48 路 的 并 发 性 。 

同 基 于 流水 线 的 实现 相反 ， 分 层 调 度 平 台 方法 支持 动态 任务 提交 ， 不 需要 额外 的 开销 并 
且 同 所 有 使 用 在 第 一 级 上 的 TBB 算法 兼容 。 不 过 ， 由 于 一 个 处 理 器 被 分 割 成 多 个 相同 的 组 ， 
因此 划分 的 数量 受 限 于 处 理 需 内 核 的 数量 除 以 期 望 的 组 大 小 。 

18.7 ”性 能 评估 

图 18-9 描述 了 基于 流水 线 和 分 层 调 度 平台 方法 修改 后 的 基准 测试 的 性 能 评估 。 曲 线 图 
表现 了 线程 库 的 效率 ， 当 运行 任务 总 数 为 120 时 ， 作 为 一 个 同时 执行 任务 的 函数 ， 在 Intel 
Xeon Phi 7120A 协 处 理 带 上 测量 。 对 于 分 层 调 度 平台 方法 ， 当 同时 运行 的 任务 数 为 20 时 获 
得 最 优 性 能 ; 对 于 流水 线 方法 ， 当 任务 数 为 25 时 达到 最 优 性 能 。 

这 些 结果 同 之 前 图 18-2 所 示 的 线程 库 分 析 相 匹配 ， 在 之 前 的 性 能 结果 中 当 同 时 运行 的 
任务 数 为 20 时 达到 最 高 效率 ， 由 于 存储 限制 ， 当 同时 运行 的 任务 数 达 到 29 时 效率 会 下 降 。 
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10 — 15. 20 
同时 执行 的 任务 数 


18-9 ”线程 模型 效率 与 模拟 任务 数 的 关系 





| 同时 执行 的 任务 数 = 20 





18-10 ”线程 模型 效率 与 总 任务 数 的 关系 
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为 了 更 进一步 评估 最 多 任务 数量 的 执行 效率 ， 基 准 测 试 将 会 配置 成 针对 20 个 任务 ,或 
者 在 Intel Xeon Phi 7120A 协 处 理 嚣 上， 每 个 任务 将 利用 3 个 内 核 或 者 12 个 便 件 线程 。 图 
18-10 展示 了 流水 线 和 分 层 调度 平台 方法 的 效率 与 最 多 执行 的 任务 数 的 关系 。120 个 任务 数 
的 最 大 值 是 估 值 ， 但 是 这 个 值 并 非 是 限定 的 。 

在 对 一 些 同时 运行 的 任务 进行 的 评估 中 ， 在 任务 数 达 到 20 时 取得 最 高 效率 。 对 于 更 多 
数量 的 任务 ， 流 水 线 方法 相 较 于 分 层 调度 平台 方法 拥有 更 稳定 的 结果 。 这 是 因为 在 第 一 种 情 
况 下 子 任务 在 一 个 单独 的 task arena 中 分 配 。 而 在 第 二 种 情况 下 ， 子 任务 的 执行 仅 限 于 第 二 
级 调度 平台 中 。 


18.8 对 NUMA 架构 的 影响 


如 前 几 节 所 提出 的 ， 分 层 调度 平台 方法 通过 采用 限制 同时 运行 的 任务 数量 ， 帮 助 解决 了 
Intel Xeon Phi 协 处 理 器 上 的 存储 限制 。 此 外 ， 这 个 方法 提供 了 通过 线程 相关 性 控制 的 一 种 
能 力 ， 可 以 在 一 组 预定 义 的 内 核 上 局 部 化 执行 一 个 任务 。 如 果 组 的 数量 和 NUMA 节点 的 数 
量 相 等 ， 并 且 第 二 级 调度 平台 工作 线程 已 关联 到 相同 的 NUMA 节点 ， 这 种 方法 可 以 帮助 消 
除 不 必要 的 Intel QPI 传输 引起 的 延迟 ， 并 且 此 外 ， 提 供 确定 的 任务 执行 时 间 ， 这 对 近 实 时 
程序 是 至 关 重 要 的 。 

图 18-11 展示 了 基于 双 插 权 Intel Xeon E5-2697v2 处 理 器 系统 上 的 执行 结果 。“ 总 时 间 ” 
代表 基准 测试 的 实际 执行 时 间 ,“ 最 短 执行 时 间 ” 代 表 一 个 任务 的 最 短 执 行 时 间 ,“ 最 长 执行 
时 间 ” 代 表 一 个 任务 的 最 长 执行 时 间 。 





20 
m 总 时 间 ] m 最 短 执 行 时 间 s 最 长 执行 时 间 18.36 
18 
16 
任务 数 = 60 
14 
12 11.47 
= 9.65 
Zz 10 
= 8.54 8.37 
8 * 
6 En Ed 
4 2.86 AS 
2 a 1.54 1.5 i5 
036 0.41 aa? -* 
0 het lad ==... = ; 
OpenMP intel TBB intel Cilk+ 分 层 流 水 线 


图 18-11 基准 测试 在 双 插 槽 Intel Xeon E5-2697 v2 上 执行 


虽然 分 层 方法 的 实际 执行 时 间 比 线程 库 、OpenMP、Intel TBB 和 Intel Cilk+ 的 基线 低 了 
30%， 但 是 分 层 方法 显著 缩短 了 时 间 并 能 提供 确定 的 任务 执行 时 间 。 通 过 流水 线 (平面 调度 
平台 ) 的 方法 执行 使 得 任务 执行 时 间 相 对 不 稳定 ， 并 且 实 际 的 执行 时 间 会 显著 增高 。 因 此 后 
一 个 方案 并 不 是 一 个 可 行 的 解决 方案 。 

为 了 理解 存储 子 系统 的 含义 ，Intel VTune Amplifier XE 用 于 粗略 估计 在 基准 测试 执行 
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期 间 ， 节 点 间 访 问 发 生 的 数量 。 获 取 下 面 的 事件 : MEM LOAD UOPS MISS RETIRED. 
REMOTE_DRAM 一 一 通过 Intel QPI 统 计 与 节点 间 访 问 相 关联 的 事件 ， 计 数 器 更 高 的 值 表 
明 更 高 的 槽 间 交 流 率 ， 于 是 导致 增加 了 访 存 延迟 ; MEM LOAD UOPS MISS RETIRED. 
LOCAL DRAM 一 一 统计 与 本 地 DRAM 中 的 负载 相关 的 事件 ; MEM LOAD UOPS 
RETIRED.LLC_HIT 一 一 统计 LLC Ab 38 zs "P BJ X, iX 2 DRAM 访问 。 图 18-12 展示 
了 在 基准 测试 执行 过 程 中 测量 的 计数 器 值 。 大 多 数 事件 发 生 在 主要 计算 函数 一 一 compute_ 
sqrt block() 中 。 





600 -—------ 
= LLC HIT M LOCAL DRAM ® REMOTE DRAM 
500 


| 400 
(zs 300 
| 200 
| 0 x: A 


_Intel TB TBB B Intel x E a 


xio 





事件 计数 











图 18-12 通过 基准 测试 测量 的 存储 子 系统 计数 器 (加 载 ) 


正如 预期 ， 通 过 分 层 调 度 平 台 方 法 ， 避 免 了 远程 DRAM 访问 。Intel VTune Amplifier 
XE 是 一 个 统计 工具 。 因 此 ， 在 测量 OpenMP 基线 时 ， 测 量 结果 依赖 于 基准 测试 执行 过 程 中 
发 生 的 其 他 事件 ， 这 个 过 程 中 事件 数量 的 比重 相对 较 低 。 


18.9 总结 


ART TREAT A EAL. HI Intel Xeon Phi 协 处 理 器 和 Intel Xeon 处 理 器 所 共享 
的 编程 方法 是 高 度 兼 容 的 ， 因 此 这 里 的 方法 对 于 处 理 器 和 协 处 理 需 均 有 价值 。 

我 们 给 出 了 一 个 案例 研究 一 一 一 种 伪造 的 “存储 饥饿 ”基准 测试 ， 这 受 Intel Xeon Phi 
协 处 理 妖 上 物理 存储 器 大 小 的 限制 。 

我 们 展示 了 两 种 基于 Intel TBB 库 的 方法 ， 这 两 种 方法 减弱 了 一 些 协 处 理 器 上 的 物理 存 
储 器 的 限制 。 每 种 方法 有 不 同 的 特点 ， 在 不 同 的 情况 下 会 选择 不 同 的 方法 。 这 些 属性 需要 考 
B: 最 外 面 的 算法 类 型 、 机 械 拓扑 结构 ， 以 及 需要 执行 的 任务 数 。 

最 后 ， 我 们 展示 了 相同 的 分 层 调度 平台 方法 可 适用 于 基于 多 插 权 Intel Xeon 处 理 器 系 
统 ， 并 能 帮助 获得 确定 的 执行 时 间 和 最 小 化 插 槽 间 通 信 的 延迟 。 


18.10 更 多 信息 


这 里 有 一 些 推 荐 的 相关 阅读 材料 : 

e STAC A2 基准 测试 说 明和 Intel 审计 结果 : 

https://stacresearch.com/a2 
https://stacresearch.com/news/2013/06/23/stac-reports-stac-a2-intel-xeon-and-intel-xeon-phi 
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è Kukanov, A., Polin, V., Voss, M.J., 2014. Flow Graphs, Speculative Locks and Task 
Arenas in Intel® Threading Building Blocks, The Parallel Universe, Issue 18. 

https://software.intel.com/sites/default/files/managed/6a/78/parallel mag issuel8.pdf. 

e Voss, M., Wilmarth, T., 2009. Intel& threading building blocks: ready for nonuniform 

memory access platforms. Intel Softw. Insight Mag. (20). 

本 章 或 其 他 章 中 的 代码 下 载 地 址 http://lotsofcores.com. 

Intel 线程 构建 模块 TBB, https://www.threadingbuildingblocks.org/. 

OpenMP, http://openmp.org/wp/. 


Intel Cilk Plus, http://www.cilkplus.org. 
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High Performance Parallelism Pearls: Multicore and Many-core Programming Approaches 


Black-Scholes 定价 的 性 能 优化 


losifMeyerov , Alexander Sysoyev , Nikita Astafiev', IlyaBurylov' 
“俄罗斯 ， 罗 巴 切 夫 斯 基 州 立 大 学 ; + 俄罗斯 ，Intel 公司 


虽然 高 性 能 计算 是 计算 机 科学 里 一 个 朝气 莲 勃 的 领域 ， 但 作为 一 个 行业 ， 它 对 新 优化 技术 
的 投资 趋 于 保守 一 一 即使 这 些 技术 有 极 大 的 加 速 潜力 。Intel Xeon Phi 协 处 理 器 系列 的 出 现 将 众 核 
与 传统 的 x86 处 理 需 体系 结构 结合 在 一 起 ， 提 供 了 大 规模 并 行 架 构 的 速度 ， 但 需要 努力 转变 应 用 
程序 以 充分 利用 硬件 所 提供 的 并 行 性 。 转 变 程序 的 需求 也 带 来 了 一 些 问题 ， 比 如 什么 数据 结构 
和 算法 才 适 用 ? 如 何 才能 最 好 地 扩展 应 用 程序 ? 什么 优化 技术 带 来 收益 ? 什么 应 用 适合 这 种 新 
ATRIA? 能 和 否 同时 对 主机 Intel Xeon 处 理 器 和 Intel Xeon Phi 协 处 理 器 的 程序 进行 优化 ? 

本 章 将 介绍 利用 Intel Xeon 处 理 器 及 Intel Xeon Phi 协 处 理 器 对 一 套 欧 式 期 权 进 行 公 平 
价格 计算 的 优化 经 验 。 

本 草 选 择 这 一 主题 原因 如 下 : 第 一 ， 欧 式 期 权 和 定价 (European option pricing) 传统 上 就 
被 用 做 验证 新 体系 结构 能 力 的 基准 程序 。 第 二 ， 它 是 金融 市 场 分 析 的 基本 要 素 之 一 ， 需 要 
HPC 系统 的 计算 能 力 ， 因 此 有 很 大 的 实际 利益 。 第 三 ， 实 现 方 法 很 容易 理解 。 期 权 定 价 算 
法 基于 流行 的 Black-Scholes 公式 ， 该 公式 在 金融 数学 教科 书 中 有 很 好 的 描述 ， 不 需要 任何 
特别 的 实现 知识 。 最 后 ， 该 算法 只 有 几 行 代码 ， 很 简单 ， 但 仍旧 有 实验 空间 ! 

仅 看 Black-Scholes 算法 的 描述 ， 很 难 想 象 在 实现 中 仍 有 易 犯 的 错误 和 难 理解 的 问题 ， 
这 些 给 优化 技术 的 论证 提供 了 很 好 的 机 会 。 

在 这 个 案例 研究 中 ， 本 章 将 逐步 讨论 各 种 应 用 优化 方法 ， 它 们 对 主机 处 理 需 及 协 处 理 器 
上 其 他 软件 的 开发 有 用 。 本 章 将 报告 所 取得 的 进展 及 暂时 的 失败 ， 包 括 很 有 和 希望 但 没有 取得 
明显 效果 的 优化 方法 。 将 这 些 优 化 步骤 包含 在 讨论 中 的 目的 是 强调 ， 在 其 他 应 用 中 实现 相似 
的 方法 能 够 取得 成 功 的 改进 。 真 的 很 难 想象 仅仅 两 百 行 代码 能 提供 如 此 多 的 学 习 机 会 ! 

本 章 的 组 织 如 下 。 首 先 将 给 出 简短 的 金融 市 场 模 型 描述 ， 讨 论 基本 概念 以 确保 对 算法 关 
键 要 素 的 理解 。 然 后 摘 述 基本 实现 ， 完 成 性 能 分 析 ， 再 逐步 采用 各 种 优化 ,包括 : 消除 不 必 
要 的 类 型 转换 ， 循 环 不 变 代 码 外 提 ， 将 “重量 级 ”数学 函数 等 价 替 换 为 “ 轻 量 级 ”、 计 算 向 
EE, FTE, “热身 ”线程 创建 以 避免 一 次 性 开销 造成 结果 失真 ， 降 低 浮 点 计算 精度 ， 内 
存 优 化 〈 通 过 流 存 储 的 使 用 )， 最 后 将 展示 处 理 需 及 协 处 理 器 的 优化 效果 。 换 名 话说， 本 章 
首先 讨论 对 所 有 并 行程 序 最 通用 的 优化 ， 通 过 展示 处 理 器 运行 时 间 曾 明 优 化 效果 。 直 到 本 章 
结尾 部 分 才 区 分 协 处 理 器 和 处 理 需 的 区 别 。 这 样本 章 能 前 明 富 有 成 效 的 优化 方法 学 : 首先 提 
取 通 用 并 行 性 ， 而 后 专注 于 特定 体系 结构 的 微调 。 


19.1 金融 市 场 模型 基础 及 Black-Scholes 公式 


19.1.1 金融 市 场 数学 模型 
考虑 一 个 在 连续 时 间 内 不 断 发 展 的 金融 市 场 ， 它 包括 两 种 类 型 资产 一 一 股票 (基于 风险 
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Wt". S) 和 债券 (无 风险 资产 ，B)。 本 章 采用 广泛 使 用 的 Black-Scholes 模型 ， 该 模型 经 过 
若干 变换 ， 可 以 由 如 下 所 示 的 随机 微分 方程 组 来 表示 : 
dB =rBdt, B,»0 ( 19-1) 
dS, = S ((r -8)dt--odW,), S,>0 ( 19-2 ) 
IÈ ( 19-1 ) 是 一 个 普通 的 微分 方程 式 ， 它 描述 了 受 r (利率 ) 影响 的 债券 脉 的 价格 行为 。 
式 (19-2 ) 是 一 个 随机 微分 方程 式 ， 它 描述 股票 S 价格 的 发 展 变 化 。 除 了 利率 之 外 ， 该 式 还 
包括 股息 率 56、 波动 率 go， 以 及 维 纳 随机 过 程 (Wiener Stochastic Process, WSP) W= (W,) sz 
初始 股票 和 债券 价格 〈 分 别 是 So 和 Bo) FETE X Eo 
下 面 简单 解释 该 模型 的 经 济 逻 辑 。 第 一 个 式 子 显示 了 无 风险 资产 债券 的 投资 能 
力 。 读 者 可 以 想象 你 来 到 银行 存款 ,存款 利率 由 银行 根据 通货 膨胀 、 独 特 的 局 势 及 市 场 来 决 
定 。 第 二 个 式 子 显示 两 组 因素 对 股票 (风险 资产 ) 价格 的 影响 一 一 确定 的 及 随机 的 。 第 一 部 
分 一 一 S$; (r -6) dt 一 一 与 式 ( 19-1 ) 的 右 侧 部 分 类 似 ， 唯 一 的 不 同 是 ， 不 像 债 养 ， 股 息 可 以 
用 来 支付 股票 ， 在 等 式 中 由 股 奶 率 5 来 反映 。 
SodW, 是 最 有 意思 的 部 分 ， 它 以 加 法 的 形式 包括 在 式 子 中 ， 用 于 建 模 市 场 中 随机 的 、 难 
预测 的 因素 影响 。 
波动 率 o 表示 市 场 的 随机 过 程 : o=0 意味 着 一 切 都 是 确定 的 ， 即 没有 风险 。o 越 大 ， 风 
险 越 高 ( 既 可 能 是 收益 也 可 能 是 损失 )。 乘 数 dW 一 一 WSP 微分 一 一 描述 在 给 定时 间 点 1 受 随 
机 因素 影响 股票 价格 的 变化 。 
WSP 是 连续 时 间 布 明和 运动 的 数学 模型 ， 有 如 下 定义: 
1. Wo=0 时 概率 为 1。 
2. WV 一 一 独立 增长 过 程 。 
3. W,-W, ~N (0,t — s), HP sct, N (0,t — s) 是 均值 为 0、 方 差 为 1 — s 的 高 斯 分 布 。 
4. 过 程 轨迹 W, (o) 一 一 概率 为 1 BEST TBE RE PR 
在 以 上 式 子 的 实现 中 ， 本 草 有 几 个 关键 假设 。 
e 在 接 下 来 的 公式 和 计算 中 ， 为 了 简化 ， 假 设 6=0( 即 模型 不 包括 股 奶 率 )。 
e 若 时 间 以 年 为 单位 ， 则 所 有 式 子 中 的 利率 都 为 0.0 一 1.0 间 的 数字 一 表达 为 小 数 的 
年 利率 。 
e. 假设 利率 和 波动 率 为 常数 一 一 它们 不 依赖 于 时 间 。 
假定 常数 利率 和 波动 率 ， 微 分 方程 式 (19-1) Al (19-2) 的 系统 就 有 解析 解 ， 否 则 ， 需 
要 使 用 已 知 的 方法 之 一 ( 欧 拉 、 龙 格 — 库 塔 等 ) 来 求 数值 解 。 当 构造 差分 格式 时 ， 与 ODE 
的 唯一 不 同 是 ， 每 个 WSP 增长 由 从 NW (0,55) 获取 的 随机 数 来 建 模 。 式 ( 19-2 ) 的 解 如 下 : 


s, = aros ( 19-3) 














19.1.2 ”欧式 期 权 和 公平 价格 概念 


期 权 是 一 个 衍生 的 金融 工具 或 者 说 是 Pl 和 P; 双方 的 合同 ， 它 赋予 Po 在 未 来 的 某 个 时 
间 点 + 以 合同 中 规定 的 价格 K 问 Pi 购买 或 出 售 股 票 的 权利 。 作 为 该 权利 的 回报 ，P; 将 给 Ps 
支付 一 定 的 数额 (费用 ) C。KK 叫 作 执行 价格 (strike price), C 叫 作 期 权 价 格 (option price), 

本 节 考 虑 期 权 的 最 简单 变型 欧式 股票 看 涨 期 权 (European share call option)。 这 个 
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合同 的 主旨 思想 是 Pl 和 P; 双方 的 比赛 。 乙 方 付 数额 C， 并 在 某 一 时 间 点 T (到 期 ， 在 合同 
中 确定 ) 做 决定 : 是 否 以 价格 玉 从 甲 方 买 股票 。 决 策 的 制定 要 依据 价格 Sy 和 天 的 比值 。 如 
R Sr<K， 买 股票 将 无 利 可 图 ， 甲 方 收益 C， 乙 方 损失 Co WR SK, LEAI KAPD 
SEAS, ， 在 一 些 情况 下 获得 收益 (取决 于 C 和 Sr -天 之 间 的 比率 )。 
主要 问题 是 这 种 期 权 合同 的 公平 价格 (fair price) 计算 ， 它 在 甲乙 双方 的 收入 和 损失 达 
到 均衡 时 发 生 。 将 该 价格 定义 为 乙方 Pa 的 平均 收益 是 合 合乎 逻辑 的 : 
C=E(e” -max(S, —K,0)) ( 19-4 ) 
在 式 (19-4) 中 ， 看 涨 期 权 C 的 公平 价格 由 现金 流 函 数 max (Sr-K,0 ) 乘 以 一 个 折扣 系 
数 e ”的 数学 期 望 来 获得 ，e” 是 在 时 间 段 CO, T) 内 利率 为 r 时 的 通货 膨胀 。 
19.1.3 Black-Scholes 公式 
在 前 面 的 假设 下 ， 式 (19-4) 有 解析 解 ， 即 称 为 欧式 看 涨 期 权 价 格 的 Black-Scholes 
公式 : 
C - S,F (d,)- Ke" F(d,) 


2 
pa T 
S, 2 


d, =ln— + 





K oVT (19-5 ) 
2 
S [- Jr 
d, =In—+ 
: K oT 


其 中 , FF 是 累积 正 态 分 布 函数 。 
本 章 将 在 接 下 来 的 计算 中 使 用 此 公式 。 读 者 可 能 会 问 :“ 这 有 什么 可 算 的 ?” 因 为 公式 
中 的 计算 乍 一 看 都 很 基础 ， 但 实际 上 如 下 所 示 ， 所 有 计算 都 不 简单 。 


19.1.4 期 权 定 价 


右 只 给 一 个 期 权 定价 ， 肯 定 不 需要 高 性 能 计算 机 。 但 实际 上 ， 金 融 市 场 中 的 机 构 要 为 数 
量 庞大 的 不 同期 权 来 计算 价格 ,这 些 期 权 又 是 在 特定 市 场 条件 下 发 行 的 。 金 融 计 算 的 时 间 严 
重 影响 决策 制定 的 速度 ,分 秒 必 争 ， 因 此 降低 一 套 期 权 的 估价 时 间 是 非常 重要 的 
因素 。 

下 面 构建 一 个 期 权 的 数据 依赖 图 ( 见 图 19-1 )。 

构建 一 套 期 权 一 般 可 能 需要 改变 5 个 参数 
(股票 初始 价格 、 执 行 价格 、 利 率 、 波 动 率 、 期 
限 )。 但 事实 上 ， 市场 参数 (利率 和 波动 率 ) 在 
特定 时 间 点 对 所 有 的 期 权 痢 是 相同 的 ， 因 此 ， 
在 接 下 来 的 计算 ， 本章 假 设 不 同期 权 仅 在 股票 
初始 价 、 执 行 价 和 期 限 上 有 所 不 同 。 


19.1.5 “测试 平台 架构 
计算 实验 在 下 述 测试 架构 上 执行 ( 见 图 192), 





图 19-1 数据 依赖 图 
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两 个 Intel Xeon E5-2690 处 理 器 (8 核 , 2.9 GHz) 





Intel Parallel Studio XE 2013 SP1 


19-2 测试 平台 架构 


19.2 ”案例 研究 


19.2.1 初始 版 本 一 一 检验 正确 性 
参数 设置 如 下 (LE 19-3). 


float sig 
float r 
float T 
float SO 
float K 


Volatility (0.2 -> 20%) 
Interest rate (0.05 -> 5% 
Maturity (3 -> 3 years) 
Initial stock price 
Strike price 


uo nm Hm wm 





图 19-3 常量 


dd — FF ta Hm GetoptionPrice() 来 实现 该 软件 ， 该 函数 使 用 Black-Scholes 公 
式 ( 即 式 ( 19-5 )) 进行 期 权 定 价 。 值 得 注意 的 是 ， 本 函数 及 本 章 所 有 其 他 函数 都 使 用 单 精 
度 浮 点 ， 这 类 问题 本 壬 不 需要 使 用 双 精 度 浮 点 (例如 ,输入 数据 通常 是 单 精度 的 ， 类 型 为 
“float”)。 接 下 来 读者 将 看 到 精度 可 进一步 降低 ( 见 图 19-23 )。 

式 ( 19-5 ) 中 较为 复杂 的 部 分 是 累积 正 态 分 布 图 数 焉 ， 这 里 使 用 cdfnormf () 函数 对 

接 下 来 编译 执行 代码 CILE 19-4) 看 其 是 否 工 作 。 顶 数 执行 结果 一 定 是 20.924。 


float GetOptionPrice() 
{ 


float C; 
float dl, d2, pl, p2; 


di (logf (S0 / K) + (r + sig * sig * 0.5E) * T) / 
(sig * sqrtf(T)); 


d2 (logf(SO / K) + (r - sig * sig * 0.5f) * T) / 
(sig * sqrtf(T)); 
pl cdfnormf (d1); 
p2 cdfnormf (d2) ; 
C SO * pi = K * exp£((=-1.08) * r * T) * p2; 


return C; 





19-4 初始 版 本 


19.2.2 参照 版 本 一 一 选择 合适 的 数据 结构 


确定 应 用 程序 功能 正确 后 ， 下 面 要 进入 主要 目标 
图 19-5 ) 。 





估价 期 权 。 下 面 介绍 变量 CUL 
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图 19-5 ”变量 


首先 讨论 本 程序 的 数据 存储 需求 ， 这 个 似乎 比较 简单 。 程 序 需要 4 个 数组 ( 3 个 存储 输 
入 数据 ，1 个 存储 结果 )， 及 几 个 标量 变量 。 
数据 在 存储 中 的 布局 会 显著 影响 软件 性 能 。 因 此 ， 在 和 本 程序 类 似 的 许多 应 用 程序 中 ， 
一 个 两 难 的 问题 是 : 该 使 用 SoA 模式 〈 数 组 结构 ) 还 是 AoS 模式 (结构 数组 )。 
e 对 于 SoA， 数 据 按 下 面 的 方式 存放 在 存储 磊 中 : 第 一 个 数组 作为 整个 一 块 来 存储 ， 
然后 是 第 二 个 ， 依 次 类 推 。 
e 对 于 AoS， 所 有 与 第 一 个 专业 领域 对 象 相关 的 数据 首先 保存 ， 然 后 是 所 有 与 第 二 个 
专业 领域 对 象 相关 的 数据 ， 依 次 类 推 。 
通常 来 说 ， 哪 种 数据 布局 更 好 没有 预先 确定 的 答案 ,但 在 特定 情况 下 可 以 有 些 建议 。 
AoS 模式 考虑 了 内 存 访问 的 局 部 性 ， 能 最 大 限度 地 重用 处 理 需 缓存 ， 但 代价 是 访问 单个 结构 
成 员 时 复杂 的 寻 址 。 使 用 SoA 数据 布局 ， 绥 存 可 被 一 些 较 小 任务 中 的 几 个 数组 同时 有 效 使 
用 ， 这 些 任务 有 独立 迭代 及 简单 的 访 存 需 求 。 这 种 布局 方式 简化 了 寻 址 并 降低 了 机 需 指令 总 
数 。 本 章 的 代码 属于 第 二 种 应 用 类 型 ， 使 用 SoA 模式 可 取得 显著 的 性 能 提升 (29 3 倍 )， 如 
接 下 来 第 二 个 版 本 的 GetoptionPrices () AAIR. Aik, AEH SoA 数据 模式 。 
下 面 的 例子 显示 了 使 用 SoA 数据 布局 的 GetOptionPrices() K% (WAI 19-6). 


void GetOptionPrices(float *pT, float *pK, float *pSO, 
float *pC) 


int i; 
float dl, a2; pl; p2; 
for (i = 0; i < N; i++) 


G1 = (log(pSO[i] / pK[i]) + (r + sig * sig * 0.5) * 
pr{il) / (sig * sqrt (pt [i] )); 
d2 = ({log(psSo[iJ / pK[i]) + (r - sig * sig * 0.5) * 
pT[i]) / (sig * sqrt (pT[i])); 
pl = cdfnormf (d1); 
= cdfnormf (d2) ; 


p2 
pC[i] = pSO[i] * pi - pK[i] * 
exp((-1.0) * y * pT[il) * p2; 





图 19-6 参照 版 本 1 


这 里 使 用 Intel C++ 编译 器 ， 用 -02 选项 进行 编译 ， 并 在 Intel Xeon 主机 处 理 器 上 运行 。 
执行 时 间 取 决 于 期 权 数 量 N， 如 图 19-7 所 示 。 


60000000 | 120000000 | 180000000 |240000000 
参照 版 本 17.002 34.004 51.008 67.970 





图 19-7. 参照 版 本 。 时 间 单 位 为 秒 
19.2.3 ”参照 版 本 一 一 不 要 混合 使 用 数据 类 型 


许多 C 程序 员 (不 仅仅 是 初学 者 ) 会 犯 的 一 个 典型 错误 是 在 处 理 浮 点 数 时 混用 “ float” 
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和 “double” 类 型 。 下 面 考虑 精度 如 何 影 响 性 能 ， 具 体 考虑 当 数 据 表示 为 “float” 类 型 ( 32 
位 单 精度 ) 且 调 用 数学 函数 进行 计算 时 需要 表示 为 “double” 类 型 (64 位 双 精 度 ) 时 的 性 
能 影响 。 注 意 ， 图 19-8 的 GetOptionPrices () 函数 代码 调用 的 是 单 精 度 男 数 1ogf () 。 
如 果 程 序 员 调 用 的 是 log () 函数 ， 编 译 器 需要 执行 下 面 的 精度 转换 : C 语言 中 的 log() K 
数 传递 的 参数 是 “ double” 类 型 ， 返 回 结果 也 是 “double” 类 型 ， 因 此 数组 元 兹 pT[il 首 
先 要 从 “float” 转 换 为 “ double"”， 才 能 执行 所 有 使 用 “ double ”类 型 的 计算 。 只 有 在 该 表 
达 式 求 值 的 最 后 ， 将 结果 赋值 给 al 时 ， 才 会 转 回 “float” 类 型 。 考 虑 到 许多 情况 下 “float 
类 型 比 “ double” 类 型 处 理 得 快 (尤其 在 使 用 向 量化 时 区 别 更 明显 )， 这 些 不 必要 的 转换 会 
对 总 性 能 产生 不 利 影响 。 本 节 会 检验 两 种 情况 下 的 性 能 区 别 。 


void GetOptionPrices(float *pT, float *pK, float *PS0， 
float *pC) 


int i; 
float di, d2, pl, p2; 
for (i = 0; i « N; i++) 


di (logf(psO[i] / pK[i]) + (r + sig * sig * 0.5£) * 
pT[i]) / (sig * sqrtf(pT[il)); 

d2 (logf(pSO[i] / pK[i]) + (r - sig * sig * 0.5f) * 
pT[i]) / (sig * sqrtf(pT[il)); 

pi - cdfnormf (d1); 

p2 = cdfnormf (d2) ; 

pC{i] = pSO[i] * pl - pKT[il 


* 
expf((-1.0f) * r * pT[i]) * p2; 





[19-8 参照 版 本 2 


为 此 ， 本 节 将 代码 修改 为 调用 函数 logf () 、sqrtf () 和 expf() ， 并 恰当 地 说 明和 党 
it (意思 是 如 果 没 有 后 级 “f” 常 量 1.0 将 会 另 保存 为 double 类 型 )。 代 码 的 更 改 都 用 粗 体 字 
突出 显示 了 。 | 

使 用 上 面 提 到 的 硬件 架构 ， 本 节 得 到 了 图 19-9 所 示 的 执行 时 间 。 如 图 19-9 所 示 ， 与 上 
一 个 参照 版 本 相 比 ， 在 所 有 数据 大 小 的 情况 下 ， 程 序 执行 时 间 都 微 降 。 请 看 由 Intel VTune 
Amplifier XE 收集 到 的 函数 GetOptionPrices() 性 能 分 析 信 息 ( 见 图 19-10 )， 以 便 更 好 
地 理解 其 中 的 原因 。 


60 000 000 | 120 000 000 | 180 000 000 | 240 000 000 
参照 版 本 17.002 34.004 51.008 67.970 
不 混用 数据 类 型 16.776 33.549 50.337 66.989 


图 19-9 不 混用 数据 类 型 。 时 间 单 位 为 秒 






VTune Basic Hotspots 分 析 显 示 ， 大 部 分 时 间 都 花 在 了 cdfnormf () AME, © E 
了 双 精 度 exp () 、log () sart O 计算 的 开销 。 然 而 ， 这 种 技术 是 广泛 适用 的 ， 本 章 作 
者 之 前 也 使 用 过 该 技术 ， 在 特定 情况 下 ， 程 序 性 能 可 提高 几 倍 。 结 论 是 : 如 果 可 能 的 话 ， 不 
要 混用 数据 类 型 ! 


19.2.4 ”循环 向 量化 
向 量化 性 能 关键 的 代码 是 最 重要 和 最 有 效 的 优化 技术 之 一 。 用 户 可 以 通过 在 编译 命令 
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行 中 加 入 -mavx FXS Sates [8 H] AVX 指令 集 (-02 开关 默认 假设 只 使 用 SSE2 指令 )。 但 
是 ， 本 节 的 实验 证 明 使 用 这 一 选项 并 没有 改变 执行 时 间 。 


^" Basic Hotspots Hotspots by CPI 


Grouping: |Functon / Call Stack i 
à 


F ion / Cail Stack CPU Time by Utilizatione 


(8 GetOptionPrices 





图 19-10 GetOptionPrices() PEZ B8 RASHEED PETER, [EH] I cdfnormf() 


出 于 理解 缘由， 本 节 通 过 -vec-report3 开关 为 编译 需 加 入 向 量化 报告 请 求 。 数 字 3 
对 应 报告 的 详细 程度 (范围 是 1 一 6)。 注 意 ， 第 6 个 报告 类 型 ( -vec-report6) 提供 关 
于 向 量化 的 一 些 额外 建议 。 

编译 图 19-8 所 示人 代码 所 产生 的 向 量化 报告 如 图 19-11 所 示 。 编 译 器 报告 在 代码 关键 循 
环 中 的 数组 之 间 可 能 存在 依赖 。 作 者 的 经 验 是 Intel C/C++ 编译 器 给 出 的 诊断 经 常 能 帮助 程 
序 员 精确 识别 出 妨碍 向 量化 的 原因 。 本 例 还 需要 进一步 的 研究 以 识别 出 根本 问题 。 





图 19-11 回 量 化 报告 


根据 癌 量 化 报告 ， 建 议 编译 器 进行 循环 向 量化 ( 见 图 19-12 )。 回 编译 器 “解释 ”数组 
间 不 存在 依赖 的 方法 有 几 种 。 下 面 对 这 些 方法 进行 详细 介绍 。 

1. 在 声明 函数 正式 参数 时 使 用 关键 字 restrict (restrict 
是 C99 标准 的 关键 字 )。 它 将 通知 编译 句 可 以 安全 地 对 循环 进行 
HEE, HARA ERV. 

2. 在 循环 之 前 使 用 # pragma ivdep 指令 通知 编译 央 忽 
略 可 能 的 数据 依赖 。 如 果 编 译 器 能 够 “证 明 ” 存 在 数据 依赖 性 ， 该 指令 会 被 忽略 。 要 避 重 使 
用 ivdaep， 因 为 它 可 能 导致 那些 有 很 难 检测 到 的 “ 真 ”依赖 的 代码 在 向 量化 时 产生 错误 的 
结果 。 

3. 在 循环 之 前 使 用 # pragma simd 指 令 。 这 条 指令 要 求 编译 器 不 论 是 否 有 依赖 
都 问 量 化 代码 。 因 此 ， 程 序 员 要 确保 没有 任何 阻碍 向 量化 的 问题 。 这 条 指令 是 最 激进 的 





图 19-12 ”主要 计算 循环 
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编译 优化 ， 但 结果 由 程序 员 来 承担 。 只 有 在 确定 没有 数据 依赖 存在 的 情况 下 才能 使 用 该 
方法 。 

4. 除了 上 述 方法 之 外 ， 也 可 以 指定 一 个 专门 的 选项 -ansi-alias， 告 诉 编译 器 该 程序 
中 没有 重合 的 (内 存 中 ) 数组 。 然 而， 该 选项 会 影响 整个 源 文件 ， 如 果 不 慎 使 用 ， 可 能 会 意 
外 “中 断 ” 代 码 。 

使 用 上 述 任何 技术 都 能 成 功 向 量化 图 19-8 中 的 代码 。 结 果 见 图 19-13。 


60000000 | 120000000 | 180000000 | 240000000 


TIT 17.002 
不 混用 数据 类 型 16.776 33.549 50.337 66.989 
向 量化 循环 15.445 30.977 46.608 62.141 


图 19-13 ”向 量化 循环 。 时 间 单 位 为 秘 





谈 者 应 该 注意 到 了 在 一 台 Intel Xeon 处 理 需 上 ， 回 量化 版 本 的 执行 时 间 比 标量 版 本 约 少 
8%。 本 实验 所 使 用 的 Intel Xeon E5-2690 处 理 器 支持 AVX 指令 ， 可 以 同时 处 理 8 个 单 精 度 
浮 点 元 素 。 那 么 为 什么 代码 没有 加 速 8 倍 ? 按 推断 ， 在 本 例 中 ， 数 据 打包 到 向 量 寄 存 器 及 拆 
包 结 果 的 开销 应 该 可 以 忽略 的 ， 因 为 使 用 的 SoA 模式 可 以 连续 地 将 数据 保存 在 存储 器 中 。 

为 了 理解 为 什么 实际 的 性 能 比 预期 的 低 ， 本 节 使 用 Intel VTune Amplifier XE Xt [5] & 1L, 
前 后 的 应 用 程序 进行 了 性 能 分 析 ( 见 图 19-10 和 图 19-14). 

查看 性 能 分 析 信 息 ， 注 意 ，logf () 和 expf O PARK Intel 编译 器 运行 时 库 中 SVML 
(short vector math library, MERJE) 的 相应 向 量化 函数 所 取代 了 。VTune 也 记录 了 耗 时 
的 cdfnormf () 函数 仍 保持 标量 计算 。 这 说 明了 缺少 向 量化 显著 加 速 ， 因 为 cdfnormf () 
阴 数 占 总 运行 时 间 的 90%。 注 意 ， 未 来 的 编译 需 版 本 可 能 会 改善 cdfnormf () 图 数 的 回 量 
化 水 平 。 


™ Basic Hotspots H 





缺少 类 似 的 回 量 化 数学 函数 是 很 能 说 明 问 题 的 。 不 能 将 热点 全 部 向 量化 就 不 能 有 进一步 
的 提升 ， 尤 其 是 在 每 个 向 量 能 处 理 16 个 单 精 度 浮 点 元 素 的 协 处 理 器 上 。 然 而 ， 可 以 通过 简 
单 的 算术 和 性 能 分 析 带 来 解决 这 个 问题 。 
19.2.5 ”使 用 快速 数学 函数 : erff() 与 cdfnormf() 


编译 需 中 的 一 些 数学 困 数 通 稍 可 能 比 其 他 曙 数 有 更 好 的 性 能 优化 。 在 本 例 中 ， 使 用 
cdfnormf () 图 数 执行 的 计算 可 以 使 用 erzff () RAAEN ( 见 图 19-15 ) 。 
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void GetOptionPrices(float *pT, float *pK, float *pSO0, 
float *pC) 
int i; 
float dl, d2, erfl, erf2; 
for (i = 0; i « N; i++) 
di (logf(pSO[i] / pK[i]) + (r + sig * sig * 0.5f) * 
pT[i]) / (sig * sqrtf(pT[i])); 
d2 (logf(pSO[i] / pK[i]) + (r - sig * sig * 0.5f) * 
pT[i]) / (sig * sqrtf(pT[il)); 
erfi = 0.5f + 0.5f * erff(dl / sqrtf£(2.0£)); 
erf2 0.5f + 0.5f * erff(d2 / sqrtf£(2.0£)); 
pC[i] = pSO[i] * erfl - pK[i] * expf((-1.0f) * r * 
pT[il) + erf2; 
图 19-15 erff 版 本 
本 例 使 用 下 面 的 公式 重新 编写 了 GetOptionPrices () : 
x 
eatnorn(:) -0.5« 05ert[ 7) ( 19-6 ) 


使 用 图 19-2 提 到 的 硬件 环境 ， 本 例 中 测量 的 运行 时 间 如 图 19-16 所 示 。 可 以 预见 到 
erff() 函数 比 cdfnormf () 更 快 ， 因 为 erff() 的 数值 性 支持 更 简单 的 浮 点 数 近似 。 然 
而 ， 这 不 是 加 速 的 唯一 原因 。 再 次 查看 VTune 性 能 分 析 结 果 。 


[xeon ran oro T ten ooo ooo T zao ooo ooo 


使 用 快速 数学 函数 


19-16 ”使 用 快速 数学 函数 。 时 间 单 位 为 秒 






图 19-17 显示 了 编译 器 采用 了 erff O 的 SVML 向 量 类 似 函 数 ， 因 此 与 cdfnormf () 
的 标量 代码 相 比 ， 获 得 了 29 倍 的 显著 加 速 比 。 还 不 错 ! 本 结果 也 显示 了 使 用 支持 更 宽 向 量 
痢 令 的 协 处 理 器 ， 以 获取 更 高 加 速 比 的 可 能 性 。 


™ Basic Hotspots 





图 19-17 向 量化 后 ，GetOptionPrices() 函数 性 能 分 析 结 果 ， 使 用 了 erff( 


19.26 ”代码 等 价 变 换 
本 程序 可 以 通过 将 “不 变 的 ”一 次 性 计算 提升 到 循环 外 面 来 做 进一步 的 小 优化 。 在 本 例 
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里 是 1.0f/sqrtf (2.0£), 
可 以 通过 引入 下 述 常 量 ( 见 图 19-18 ) 单独 对 该 表达 式 进 行 估 值 。 


const float invsqrt2 = 0.707106781f; 


19-18 "1.0f/sqrt£ (2 )” 常 量 


将 除法 用 乘法 来 蔡 换 也 是 个 重要 的 方法 。 这 种 优化 在 一 些 情况 下 可 以 显著 缩短 执行 时 
间 。 本 例 可 以 使 用 invsqrtf O RARR 1/sqrtf () 表达 式 。 可 以 检查 编译 器 是 否 能 执 
行 目 动 蔡 换 。 

如 图 19-19 所 示 ， 新 代码 版 本 的 执行 时 间 几 乎 与 之 前 得 到 的 执行 时 间 相 同 。 因 此 编译 器 
非常 有 可 能 在 无 程序 员 帮 助 的 情况 下 已 经 执行 了 必要 的 代码 替换 。 可 以 通过 检查 编译 器 的 汇 
编 指令 来 证 明 这 一 点 (例如 在 命令 行 中 添加 -Fa 开关 )。 


RR |16776 |as |50337 |66989 
heess [isas |30977 [assos |62141 
seme fe e foe am 
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图 19-19 ”代码 等 价 变换 。 时 间 单 位 为 秒 


尽管 执行 时 间 基 本 没 变 ， 但 是 本 例 采 用 的 循环 不 变 式 外 提 及 除法 的 乘法 替换 一 般 都 很 有 
用 ， 而 且 对 不 那么 “智能 ”的 编译 器 ， 这 些 方法 一 般 都 能 带 来 收益 。 当 代码 移植 到 不 同体 系 
结构 时 ， 保 留 这 些 优化 可 能 会 有 所 帮助 ， 因 此 本 例 采用 这 一 版 本 〈 见 图 19-20) 作为 新 的 基 
准 版 本 ， 另 外 在 下 面 的 协 处 理 器 实验 中 也 将 包含 这 些 优化 。 












void GetOptionPrices(float *pT, float *pK, float *pSO, 
float *pC) 


int i; 
float dl, d2, erfl, erf2, invf; 
float sig2 - sig * sig; 


#pragma simd 
for (i = 0; i < N; i++) 


invf = invsqrtf(sig2 * pT[i]); 

di = (logf(pSO[i] / pK[i]) + (r + BigZ * O.5f) * 
pT[i]) * invf; 

d2 = (logf(pSO[i] / pK[i]) + (r - sig2 * 0.5f) * 
pT[i]) * invf; 

erfi = 0.5f + 0.5f * erff(dl * invsqrt2); 

erf2 = 0.5f + 0.5f * erff(d2 * invsgrt2); 

pC[i] = pSO[i] * erfi - pK[i] * expf((-1.0f) * r * 

pT[i]) * erf2; 





图 19-20 ”新 的 基准 版 本 


19.2.7 AH 
太一 个 可 能 有 用 的 软件 优化 方法 涉及 数据 对 齐 。 处 理 器 执行 按 SIMD 寄存 器 大 小 对 齐 的 
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数据 访问 要 比 执行 非 对 齐 的 访问 快 得 多 。 一 些 情况 下 ， 编 译 改 和 硬件 能 最 小 化 性 能 影响 ， 但 
确保 数据 对 齐 通 常 能 取得 显著 的 性 能 提高 一 一 尤其 对 于 向 量 代 码 ， 因 此 值得 去 检测 内 存 地 址 
是 否 对 齐 。 为 确保 对 齐 ， 本 节 将 new/delete 操作 符 替 换 为 memalign()/free() MŽ, 
代码 的 其 余部 分 没有 改变 ( 见 图 19-21 )。 


int main(int argc, char *argv[]) 


pT = (float *)memalign(32, 4 * N * sizeof(float)); 
/ 


pT = new float[4 * N]; 


free (pT); 
// delete [] pT; 
return 0; 





19-21 数据 对 齐 


建议 的 对 齐 值 (memalign O 函数 的 第 一 个 参数 ) 取决 于 所 使 用 SIMD 寄存 器 的 宽度 。 对 
SSE 指令 ,使 用 16 字 节 ; 对 AVX 指令 ,使 用 32 字 节 ; 对 于 协 处 理 器 指令 集 ， 使 用 64 字 节 。 
在 代码 中 循环 之 前 加 入 一 条 指令 也 是 很 有 用 的 : 


#pragma vector aligned 


IX ATS ZB A FE aS a PY ES, BT AE AFR / SRS. XE 
BKE, WIRE i “Wia SPER, AXUPTEZ:BAOU 4EXI AT BH (EAS) TY BE zz RR o 

TEA BP, Ba PEA CAE Ab BE T MST le: 图 19-22 显示 了 最 后 两 组 实验 没有 差别 ， 但 这 
并 不 意味 着 对 所 有 编译 器 会 一 直 有 这 样 的 结果 。 作 者 的 经 验 表明 应 该 尽 可 能 将 数据 对 齐 。 







80,000 000 
mmm — irre [sss | 50207 |66989 


使 用 快速 数学 函数 

+ 改进 的 向 量化 0.522 1.049 1.583 
SER Ton 
对 弄 数组 [059 — 


19-22 ”对 齐 数据 。 时 间 单 位 为 秒 





19.2.8 尽 可 能 降低 精度 


之 前 已 经 讲 到 了 本 问题 的 解决 过 程 不 需要 使 用 double 类 型 。 本 节 将 进一步 讨论 这 个 
问题 。 本 例 中 使 用 单 精 度 float 类 型 也 多 余 了 (因为 在 本 专业 领域 不 会 使 用 超过 4 位 十 进 制 
数字 )。 降 低 精度 为 进一步 优化 计算 提供 了 可 能 性 。 

下 面 的 Intel 编译 帮 命 令 行 选项 会 影响 数学 函数 的 计算 精度 。 

icc .. -fimf-precision-low -fimf-domain-exclusion-31 

-fimf-precision=low 选项 通知 编译 器 使 用 尾数 为 11 个 精确 位 (对 于 单 精 度 浮 点 可 
用 24 位 ) 的 数学 函数 实现 ， 这 更 与 输入 参数 的 精度 相符 。-fimf-domain-exclusion x 
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项 允许 数学 图 数 不 处 理 一 些 特 殊 值 (如 无 穷 大 值 、NaN 及 变量 的 极 值 )， 在 能 安全 假定 程序 
不 需要 人 处理 这 些 极 值 的 情况 下 可 以 使 用 该 选项 。 

图 19-23 显示 了 使 用 这 些 较 低 精度 的 编译 融 选 项 可 以 将 应 用 程序 运行 时 间 降 低 23%。 注 
意 ， 精 度 的 降低 会 影响 GetOptionPrices () 图 数 的 数字 结果 : 这 里 得 到 的 是 20.920， 而 
不 是 参照 版 本 的 20.924， 但 直到 第 5 个 十 进 制 数字 才 有 区 别 。 但 要 特别 指出 的 是 ， 应 该 总 是 
执行 恰当 的 精度 分 析 以 确保 安全 地 使 用 精度 控制 。 


67.970 
66.989 





图 19-23 尽 可 能 降低 精度 。 时 间 单 位 为 秒 


19.2.9 并 行 工作 


就 像 对 单线 程 应 用 来 说 ， 向 量化 能 够 对 可 用 的 处 理 器 核资 源 饱 和 有 所 帮助 ， 线 程 级 并 行 
能 够 对 将 工作 分 给 多 个 处 理 需 内 核 及 SMT 架构 中 的 可 用 单 核资 源 有 所 帮助 。 计 算 部 分 的 循 
环 在 多 个 处 理 单元 (例如 人 硬件 线程 和 处 理 器 内 核 ) 上 的 并 行 化 是 很 简单 的 ， 因 为 迭代 之 间 不 
存在 任何 依赖 。 只 要 简单 地 在 循环 之 前 加 omp parallel for 编译 指示 (在 图 19-24 中 由 
黑体 标 出 ) 并 通过 private 列表 局 部 化 所 有 需要 写 的 变量 即 可 。 | 


void GetOptionPrices(float *pT, float *pK, float *pSO0, 
float *pC) 


int i; 

float d1, d2, erfl, erf2, invf; 

float sig2 - sig * sig; 
#pragma simd 
#pragma omp parallel for private(dl, d2, erfl, erf2, 
invf) 

for (i = 0; i < N; i++) 


invf = invsqrtf(sig2 * pT[i]); 

di = (logf(pSO[i] / pK[il) + (£ + sig2 * 0.5f) * 
prT[i]) * invf; 
( 


logf(pSO[i] / pK[i]) + (r - sig2 * 0.5f) * 
pT({i]) * invf; 
erfi = 0.5f + 0.5f * erff(d1 * invsqrt2); 
erf2 = 0.5f + 0.5f * erff(d2 * invsqrt2); 
pC[i] = pSO[i] * erfi -= pK[{i] * expf((-1.0f) + g * 
pr[il) * erf2; 





图 19-24 OpenMP 版 本 


注意 ，-openmp 编译 器 命令 行 开 关 之 前 已 经 加 过 了 ， 因 此 不 需要 格外 的 命令 行 改动 。 
如 图 19-25 所 示 ， 随 着 数据 量 的 增加 ， 人 性 能 扩展 也 有 所 提高 ，2.4 亿 样 本 的 性 能 扩展 为 
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7.59 一 11.27 倍 。 


图 19-25 ”并 行 工 作 。 时 间 单 位 为 秒 ， 使 用 了 16 FE 















19.2.10 ”使 用 热身 


上 一 个 实验 的 执行 时 间 已 经 很 短 了 ， 因 此 线程 创建 开销 可 能 在 并 行 部 分 执行 时 间 中 占 
显著 比例 。 下 面 尝 试 避 人 免 这 一 开销 。 大 多 数 OpenMP 实现 并 不 会 销毁 为 第 一 段 并 行 代码 
创建 的 线程 ， 而 是 将 它们 置 于 睡眠 状态 ， 以 便 在 后 续 使 用 中 可 以 更 快 地 重新 开始 。 这 就 是 
大 家 所 知 的 创建 “线程 池 ”。 本 方法 正 是 利用 这 一 事实 来 避免 线程 创建 开销 。 因 此 ， 如 果 
GetOptionPrices() 在 main() 果 数 中 连续 调用 两 次 ， 第 二 次 的 调用 开销 将 最 小 化 。 这 
种 方法 叫 作 “热身 ”。 

热身 对 基准 测试 公平 吗 ? 作者 的 经 验 是 实际 的 产品 程序 都 会 在 公式 计算 执行 之 前 很 长 一 
段 时 间 就 创建 线程 ， 因 此 避免 线程 创建 开销 对 于 基准 测试 是 合理 的 。 然 而 ， 数 据 缓存 热身 可 
以 节省 更 多 的 开销 : 使 用 相同 数据 的 相同 函数 的 连续 两 次 调用 可 能 导致 不 同 的 运行 时 间 ， 因 
为 第 一 次 函数 调用 可 能 受 缓存 缺失 影响 ， 而 第 二 次 就 可 能 受益 于 缓存 命中 ， 因 为 数据 仍 保存 
在 高 速 缓存 中 。 

这 样 是 好 还 是 坏 ? 一 方面 ， 这 样 做 不 完全 公平 : 有 一 个 非常 知名 的 基准 测试 错误 一 一 在 
单一 进程 中 执行 单线 程 和 多 线程 实验 (操作 相同 数据 集 )。 当 实验 正确 执行 时 一 一 单线 程 和 
多 线程 使 用 自己 的 进程 ， 超 线性 加 速 比 立 即 就 消失 了 。 另 一 方面 ， 在 实际 的 程序 中 ， 其 他 配 
置 计算 通常 在 热点 函数 周围 执行 ， 逐 步 将 目标 计算 数据 载 人 缓存 中 。 

一 般 的 建议 如 下 : 

1. 如 果 执 行 时 间 长 ， 如 数秒 ， 就 不 需要 热身 。 

2. 如 果 执 行 时 间 短 〈 几 分 之 一 秒 )， 线 程 数 大 ， 使 用 热身 较 合 理 ， 和 否则 现实 世界 中 算法 
的 执行 时 间 会 被 开销 掩盖 。 

3. 如 果 怀 疑 预 加 载 缓存 可 能 造成 性 能 结果 扭曲 ， 程 序 员 可 以 只 出 于 线程 创建 目的 ， 在 被 
测试 代码 部 分 之 前 引入 一 个 专门 的 假 并 行 部 分 。 这 种 方法 仅 避 免 了 线程 创建 开销 ， 却 没有 接 
触 到 缓存 。 

图 19-26 所 示 的 “降低 精度 ”和 “降低 精度 + 热身 缓存 ”的 结果 差别 显示 了 “热身 ”组 
存 的 好 处 。 热 身 也 可 以 从 并 行 版 本 的 测试 结果 中 避免 了 线程 创建 开销 (图 19-26 中 最 后 一 
行 )， 可 以 看 到 计算 部 分 在 16 核 上 性 能 扩展 了 13 倍 。 
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图 19-26 使 用 热身 。 时 间 单 位 为 秘 


19.2.11 使 用 Intel Xeon Phi 协 处 理 器 实现 轻松 移植 


该 协 处 理 器 已 经 充分 展示 了 其 使 用 大 量 线程 (120 — 240 个 ) 的 有 效 性 ， 前 提 是 如 果 代 
码 也 能 很 好 地 回 量 化 。 下 面 讨 论 只 是 简单 重新 编译 的 “轻松 移植 ”能 珊 来 的 性 能 收益 。 另 
外 ， 本 节 也 将 分 析 应 用 于 主机 处 理 需 的 优化 在 此 处 的 影响 。 实 验 从 “等 价 变换 ”版 本 开始 ， 
将 其 作为 基准 版 本 。 

为 了 编译 协 处 理 需 的 代码 ， 只 需 简单 地 在 命令 行 加 入 -mmic 开关 。 另 外 ， 别 忘 了 将 
memalign() 中 的 对 齐 参 数 从 32 改 为 64， 以 适应 协 处 理 器 体系 结构 。 

图 19-27 包括 了 协 处 理 器 串 行 版 本 与 本 机 处 理 器 串 行 版 本 的 时 间 比 较 。 值 得 注意 的 是 ， 
在 协 处 理 融 上 降低 精度 的 计算 能 得 到 2.3 倍 的 收益 ， 而 CPU 只 有 23%。 该 图 也 显示 了 热身 
绥 存 能 带 来 更 好 的 收益 (24 60%)。 最 后 ， 值 得 注意 的 是 ， 协 处 理 器 串 行 版 本 的 执行 时 间 与 
本 机 处 理 器 的 执行 时 间 基 本 是 相同 的 。 


60 000 000 | 120 000 000 | 180 000 000 | 240 000 000 
— [€ [o pm pm 


等 价 变换 1.544 3. 089 4.633 6.174 
降低 精度 0.676 1.352 2.027 2.703 


图 19-27 使 用 Intel Xeon Phi 协 处 理 融 。 时 间 单 位 为 秒 ， 串 行 版 本 














19.2.12 使 用 Intel Xeon Phi 协 处 理 器 实现 并 行 工 作 


当 所 有 并 行 资源 都 使 用 时 ， 协 处 理 融 的 潜力 才能 显现 出 来 : 包括 SIMD 和 具有 SMT 
的 多 核 。 下 面 讨论 协 处 理 豆 的 并 行 版 本 。 要 注意 的 是 ， 到 目前 为 止 ， 本 章 还 没有 采用 任何 
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专门 针对 协 处 理 需 的 优化 ， 只 是 重新 编译 了 处 理 需 的 代码 版 本 并 在 协 处 理 器 上 以 本 机 模式 
(native mode) 运行 。 

如 图 19-28 所 示 ， 没 有 热身 的 版 本 基本 没有 加 速 ， 这 一 结果 支持 了 线程 创建 开销 与 程序 
执行 时 间 相 当 的 假设 。 








[mms — sos [seus sts [5096 


60 000 000 | 120 000 000 | 180 000 000 | 240 000 000 
并 行 工作 ，240 个 线程 0.532 0.527 0.533 0558 | 


























加 速 比 1.269 3.800 4.842 
240 个 线程 ， 无 开销 0.008 0.016 0.024 0.031 
加 速 比 53.286 | 54.248 53.969 53.964 


19-28 使 用 Intel Xeon Phi 协 处 理 右 。 时 间 单 位 为 秒 ， 分别 使 用 60、120、240 个 线程 


增加 了 热 映 ,在 测量 中 即 可 避免 一 次 性 的 开销 ， 并 且 可 以 看 到 计算 部 分 性 能 如 何 扩展 : 
加 速 从 50.5 变化 到 60.4。 需 要 注意 的 是 ， 直 到 线程 数量 达到 内 核 数 ， 性 能 都 有 很 好 的 扩展 ， 
若 继 续 增 加 线程 数量 以 充分 利用 每 个 内 核 的 执行 流水 线 ， 在 120 个 线程 时 ( 即 每 个 核 两 个 
线程 )， 性 能 也 有 些许 提升 ， 但 在 240 个 线程 时 ( 即 每 个 内 核 4 个 线程 )， 性 能 下 降 了 ， 如 图 
19-28 所 示 。 很 显然 ， 在 主机 处 理 器 上 对 于 16 个 线程 能 取得 很 好 性 能 的 代码 不 能 很 好 地 扩 
展 到 240 个 线程 。 下 面 将 讨论 是 否 能 针对 协 处 理 硕 改进 原 代 码 版 本 。 


19.2.13 ”使 用 Intel Xeon Phi 协 处 理 器 和 流 存 储 


GetOptionPrices() 函数 使 用 4 个 数组 (PT,PK, PS$So,pPC)， 其 中 三 个 数组 作为 
只 读 的 输入 ， 一 个 数组 (PC) 是 有 写 操作 的 输出 。 请 注意 ， 当 前 的 基准 程序 数据 组 织 只 
在 循环 中 访问 pc 数组 一 次 ， 因 此 ， pC 数组 数据 不 需要 缓存 ， 并 且 可 以 标记 为 非 暂 存 的 
(nontemporal)。 换 句 话 说 ， 现 在 得 到 的 结论 是 该 示例 已 经 达到 了 存储 带宽 极限 ， 因 此 即使 线 
程 数 增多 性 能 也 不 能 扩展 。 

协 处 理 器 上 的 流 存 储 指令 能 通过 消除 缓存 一 致 性 流量 ( 称 为 “ 带 所 有 权 的 读 ( read-for- 
ownership, RFO)”( 流 量 )) 来 节省 带宽 。 计 算 X 份 期 权 需 要 BX KEMXA, UK XI 
RFO 请 求 以 维持 写 的 缓存 一 致 性 ， 总 共 SX 次 操作 。 使 用 流 存储 能 消除 RFO 请 求 ， 将 流量 
降低 到 4X。 如 果 基 准 程序 是 内 存 带 宽 受 限 的 ， 那么 该 优化 中 的 期 望 加 速 比 应 为 5X/4X = 
1.25。 在 最 大 数据 集 的 情况 下 ， 本 实验 可 得 加 速 比 0.031/0.026=1.19， 见 图 19-29。 流 存储 版 
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本 的 代码 见 图 19-30。 
60 000 000 | 120 000 000 | 180 000 000 | 240 000 000 


并 行 工作 + 热身 ， 
流 存 储 120 个 线程 


19-29 ”使 用 Intel Xeon Phi 协 处 理 器 和 流 存储 。 时 间 单 位 为 秒 


0.007 0.013 0.026 





void GetOptionPrices(float *pT, float *pK, float *pS0， 
float *pC) 


int i; 
float dl, 32, erfl, erf2, invf; 
float sig2 = sig * sig; 

#pragma simd 

#pragma vector nontemporal 


#pragma omp parallel for private(invf, dl, d2, erfl, 
erf2) 
n (i 0; i < N; i++) 
invf invsqrtf(sig2 * pT[il); 
di (logf(pSO[i] / pK[i]) + (r + sig2 * 0.5f) * 
pT[i]) * invf; 
(logf(pso[i] / pK[il) + (r - sig2 * O.5£f) * 
pT[i]) * invf; 
erfi = 0.5f + 0.5f * erff(d1 * invsqrt2); 
erf2 = 0.5f + 0.5f * erff(d2 * invsqrt2); 
pC[i] = pSO[i] * erfl - pK[i] * expf((-1.0f) * r * 
pT[il) * erf2; 





图 19-30 DF 


最 终 ， 使 用 协 处 理 需 评估 240 000 000 £/ HAA Eb FH SE BLA FE SR £A IR 4.5 倍 ， 但 由 于 
达到 了 存储 市 宽 极 限 ， 程 序 就 不 能 扩展 到 高 于 65$.4 倍 了 。 


19.3 总结 


欧式 期 权 定价 的 Black-Scholes 公式 是 事实 上 的 标准 金融 基准 测试 程序 。 尽 管 由 Black 
和 Scholes 发 明 的 模型 中 的 几 个 假设 在 现实 生活 中 很 少 满 足 ， 但 是 Black-Scholes 公式 在 实 
践 中 仍 广泛 使 用 。 要 解决 的 一 个 典型 问题 是 同时 为 数 百 万 期 权 定 价 。 这 个 问题 非常 耗 时 ， 需 
要 大 量 的 计算 能 力 ， 因 此 ， 它 与 HPC 领域 相关 。 这 引发 了 在 当代 多 核 和 众 核 硬件 上 以 高 性 
能 实现 Black-Scholes 公式 的 挑战 。 

本 章 介 绍 了 Black-Scholes 公式 计算 在 Intel Xeon 处 理 器 和 Intel Xeon Phi 协 处 理 器 上 的 
性 能 优化 研究 ， 从 基本 实现 到 高 度 调 整 的 实现 。 一 步 步 分 析 了 典型 优化 技术 在 处 理 器 和 协 处 
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理 器 上 所 带 来 的 性 能 提升 。 在 单 精 度 浮 点 数 的 情况 下 ， 最 终 优 化 版 本 在 处 理 器 上 可 以 每 秒 计 
算 20.67 LWI, FED Mb EE SS [REB n] VATES 92.31 亿 份 期 权 。 本 章 也 阐述 了 通过 应 用 优 
化 性 能 制约 因素 如 何 变化 一 一 即 处 理 器 上 的 应 用 是 计算 制约 的 ， 而 在 计算 密集 的 数学 计算 被 
调整 之 后 ， 协 处 理 硕 上 存储 带宽 似乎 成 为 了 制约 因素 。 

这 一 研究 及 源码 已 在 俄罗斯 作为 “Intel Xeon Phi 协 处 理 器 编程 ”教程 的 一 部 分 发 表 
(http:Whpc-education.unn.ru/ru/obuchenie/courses/xeon-phi)， 代 码 参 见 : http://lotsofcores.com. 
这 一 工作 由 UNN HPC 中 心 与 Intel Numerics 工程 师 合作 筹备 。 
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使 用 Intel COI 库 传 输 数 据 
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利用 Intel Xeon Phi 协 处 理 右 的 计算 能 力 有 很 多 方法 。 例 如 印 载 模式 。 这 种 模式 下 ， 编 
译 吉 自动 生成 可 在 协 处 理 器 上 运行 的 代码 ; 同时 数据 传输 自主 管理 并 且 执 行 过 程 对 程序 员 不 
可 见 。 对 于 多 种 程序 ， 特 别 是 遗留 应 用 程序 (legacy application) 中 的 计算 内 核 以 及 热点 内 
核 中 的 紧 耦 合计 算 ， 印 载 模式 不 但 可 以 非常 容易 地 改写 代码 ， 而 且 能 够 取得 较 好 性 能 。 同 
时 ， 当 整个 程序 高 度 并 行 并 且 可 以 完全 运行 在 协 处 理 器 上 时 ， 可 在 协 处 理 器 上 编写 、 编 译 单 
机 程序 (例如 本 机 模式 )。 对 于 适合 主 从 构架 或 者 其 他 形式 的 松散 耦合 计算 的 应 用 程序 ， 划 
分 计算 并 运行 在 最 合适 的 硬件 架构 上 是 有 意义 的 。 

如 果 计 算 可 以 划分 为 分 别针 对 主机 处 理 器 和 协 处 理 需 的 独立 进程 ， 并 且 进 程 间 有 细 粒 度 通 
信 ，Intel 协 处 理 器 印 载 基础 架构 (Intel COD API 和 库 是 一 个 处 理 数据 传输 的 好 方法 。COI 库 构 
建 于 对 称 通信 接口 之 上 ， 为 优化 后 的 底层 进程 和 使 用 Intel 众 核 平台 软件 栈 (Intel MPSS) 的 协 处 
理 需 提供 通信 。 与 汇编 辅助 卸载 机 制 (也 使 用 的 是 COT 库 ) 相对 比 ， 程 序 员 直接 使 用 COI 库 手 
工控 制 数 据 ， 可 以 直接 在 协 处 理 希 上 写 人 或 读 出 数据 。 本 章 将 介绍 如 何 使 用 COI 缓冲 区 来 传输 
数据 ， 评 估 COI 库 在 实际 应 用 中 的 实效 性 ， 并 通过 基准 测试 讨论 不 同 种 类 COI 缓冲 区 的 特点 。 


20.1 使 用 Intel COI 库 的 第 一 步 | 

COI 库 是 为 了 主机 和 协 处 理 器 上 进程 间 通 信 所 设计 的 。 在 COI 术语 中 ， 某 个 进程 是 
源 (source)， 其 他 进程 是 汇 (sink)。 它 们 之 间 的 通信 通道 是 一 条 从 源 开 始 通 向 汇 的 管道 
(pipeline), 源 和 汇 是 两 个 二 进 制 文件 ， 可 针对 它们 各 自 的 架构 执行 编译 和 构建 。 源 进程 负 
责 通过 COI 接口 调用 ， 开 局 协 处 理 需 进程 。 图 20-1 展示 了 初始 化 源 进程 的 代码 。 


uint32 t engineCount - 0; 
COIEngineGetCount (COI ISA MIC, &engineCount) ; 
if (engineCount < 1) { 


return -1; 
} 
COIENGINE engine = NULL; 
COIEngineGetHandle(COI ISA MIC, 0, &engine) ; 
COIPROCESS proc = NULL; 
const char* sinkName = "sink mic"; 
COIProcessCreateFromFile(engine, sinkName, 0, NULL, 

false, NULL, true, NULL, 0, NULL, &proc) ; 

const char* funcName = "receiveData"; 
COIFUNCTION func[1]; 
COIPIPELINE pipeline; 
COIPipelineCreate(proc, NULL, 0,&pipeline); 
COIProcessGetFunctionHandles(proc, 1, &funcName, func); 


图 20-1 在 源 端 (主机 ) 初始 化 COI 代码 
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主机 列举 出 协 处 理 硕 (COIENGINE)， 初 始 化 并 产生 协 处 理 硕 进程 (COIPROCESS )， 
然后 在 COI 管道 中 声明 对 应 功能 的 指针 ( COIFUNCTION)。 一 旦 这 些 步骤 完成 ， 我 们 就 可 
以 开始 使 用 COI 缓冲 区 在 进程 间 传 输 数 据 。 

在 协 处 理 器 端 ， 只 需要 发 起 两 个 COI 接 口 调 用 ， 就 可 以 开启 汇 的 主要 功能 ， 如 图 20-2 
中 的 代码 所 示 。 汇 进程 需要 使 用 COINATIVELIBEXPORT 宏 来 导出 函数 ， 源 进程 可 以 从 主 
机 端 通过 管道 调用 “执行 函数 ”( run function) 来 导出 函数 。 导 出 的 COT 执行 函数 参数 必须 
lA] COL API 指定 的 执行 函数 原型 相 匹 配 。 


int main(int , char**) 
COIPipelineStartExecutingRunFunctions(); 
COIProcessWaitForShutdown(); 


return 0; 


} 


COINATIVELIBEXPORT 

void receiveData(uint32 t bufferCount, 
void** bufferPointers, 
uint64 t* bufferLengths, 
void* miscData, 
uintl6 t miscDataLength, 
void* returnValue, 


uintl6 t returnValueLength) 


{ 


// Process data buffers... 


} 





图 20-2. 在 汇 ( 协 处 理 器 ) finn CIO 的 初始 化 代码 


注意 COI 库 是 作为 Intel 众 核 平台 软件 栈 (Intel MPSS) 的 一 部 分 发 布 的 。 安 装 之 后 ， 
可 以 在 Linux 上 /usr/share/doc/intel-coi-<version> 目录 下 发 现 API 文档 和 源 代码 教程 。 


20.2 COl 缓冲 区 种 类 和 传输 性 能 

COI 源 和 汇 代 码 使 用 管道 来 通信 和 和 传输 数据 。 管 道 命 令 是 按 顺 序 执行 的 ， 并且 可 同步 执 
行 也 可 异步 执行 。 可 以 通过 使 用 COI 完成 事件 机 制 来 阻塞 执行 ， 直 到 一 个 管道 事件 发 生来 
完成 同步 。 实 际 上 ， 在 两 种 情况 下 ， 数 据 可 以 通过 管道 执行 函数 调用 而 输送 ， 指 出 这 一 点 很 
重要 。 一 种 是 使 用 绥 冲 区 指针 参数 ; 另 一 种 是 使 用 混合 数据 参数 。 混 合 数据 在 可 以 传输 的 数 
据 总 量 中 是 有 限 的 (默认 情况 下 是 32KB), 但 是 混合 数据 是 传输 小 块 数据 最 有 效 的 方式 ， 如 
传输 命令 参数 而 不 需要 分 配 COI 缓冲 区 。 

在 COI 库 中 有 4 种 缓冲 区 类 型 用 来 数据 传输 。 每 种 在 它们 的 用 法 和 性 能 上 都 略 有 不 同 。 

e 流 式 (从 Intel MPSS 3.2 之 后 弃 用 ) 

e ill 

e 固定 

e OpenCL 

我 们 将 关注 前 三 种 缓冲 区 。OpenCL 绥 冲 区 同 普通 的 缓冲 区 相 类 似 ， 不 同 之 处 是 前 者 使 
用 于 Intel OpenCL SDK。 所 有 的 COL 缓冲 区 都 使 用 COIBufferCreate 函数 创建 。 当 一 个 
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缓冲 区 不 再 需要 了 ， 使 用 COIBufferDestroy 来 清理 资源 。 图 20-3 展示 了 一 个 使 用 COI 
流 式 缓冲 区 的 例子 。 数 据 传输 的 方 癌 是 从 源 到 汇 。 


COIBUFFER buffer; 

COIBufferCreate (bytes, COI BUFFER STREAMING TO SINK, 
0, data, 1, &proc, &buffer)); 

COIEVENT completion event; 

COI ACCESS FLAGS flag - COI SINK READ; 


COIPipelineRunFunction(pipeline, func[0], 1, &buffer, 
&flag, 0, NULL, misc data, strlength, return value, 
strlength, &completion event); 

// do something else. 

COIEventWait(1, &completion event, -1, true, NULL, NULL); 

COIBufferDestroy (buffer); 





图 20-3 COI 流 式 缓冲 区 的 创建 和 数据 传输 。data 参数 在 COIBufferCreate 图 数 中 是 一 
个 指向 用 户 数据 的 指针 ， 缓 冲 区 从 该 指针 处 开始 复制 数据 。 缓 冲 区 的 尺寸 是 通过 
bytes 参数 指定 的 。 通 过 传人 一 个 COIEVENT 对 象 ， 管 道 执行 函数 可 以 异步 调用 


如 COI 参考 手册 所 述 ， 一 个 管道 执行 函数 使 用 一 个 流 式 缓冲 区 。 昌 然 COIBufferMap 
可 以 通过 映射 流 式 缓冲 区 来 完成 写 操作 ,但 是 会 有 一 个 新 的 缓冲 区 在 高 级 选项 中 创建 。 因 
此 ， 通 过 COIBufferMap 重用 一 个 流 式 缓冲 区 是 有 开销 的 ( 见 图 20-4 )。 相 比 之 下 ,使 用 他 
三 种 缓冲 区 类 型 创建 一 个 缓冲 区 ， 在 数据 传输 中 可 以 重用 ， 直 到 手工 销毁 它 。 本 章 中 的 CO! 
缓冲 区 基准 测试 在 一 个 系统 中 收集 ， 该 系统 拥有 两 个 Intel Xeon E5-2697 v2 2.7GHz ALIEZE 
和 一 个 使 用 Intel MPSS 3.2.1 的 Intel XeonPhi 7120A 协 处 理 上 器 。 


1.03 ms 970 MB/s 0.34 ms 2941 MB/s 0.48 ms 2096 MB/s 
6.36 ms 629 MB/s 0.90 ms 4469 MB/s 2.98 ms 1340 MB/s 


22.31 ms 717 MB/s 2.83 ms 5662 MB/s 9.73 ms 1644 MB/s 
112.77 ms 568 MB/s 10.26 ms 6237 MB/s 40.04 ms 1598 MB/s 
448.88 ms 570 MB/s 39.78 ms 6436 MB/s 158.78 ms 1612 MB/s 

1804.06 ms 568 MB/s 158.50 ms 6461 MB/s 641.45 ms 1596 MB/s 





图 20-4 COI 流 式 缓冲 区 的 性 能 


当 有 大 量 的 数据 需要 传输 时 ， 重 用 一 个 非 流 式 缓冲 区 会 比 为 每 一 次 数据 传输 创建 一 个 新 
的 缓冲 区 更 有 效 。 普 通 缓冲 区 是 以 类 似 流 式 组 冲 区 的 方式 创建 的 ， 但 是 它们 的 用 法 不 同 。 虽 
5k COIBufferMap 可 以 用 来 存 取 缓 冲 区 数据 ， 但 是 如 果 我 们 只 想 复 制 一 块 新 的 数据 到 缓冲 
区 里 ， 我 们 可 以 使 用 COIBufferWrite， 如 图 20-5 Arma. 

普通 缓冲 区 和 固定 缓冲 区 在 缓冲 区 分 配方 式 上 不 同 ， 在 数据 从 源 传输 到 汇 的 方式 上 也 不 
同 。 对 于 一 个 普通 缓冲 区 ， 当 缓冲 区 在 源 端 创建 时 ， 内 存 仅 在 主机 端 分 配 ， 协 处 理 带 端的 虚 
拟 内 存 被 保留 。 所 以 ， 在 源 端 写 和 人 缓冲 区 是 一 个 本 地 操作 。COIPipelineRunFunction 
第 一 次 调用 时 ， 在 协 处 理 器 端 分 配 一 个 相应 的 缓存 以 存储 实际 传输 的 数据 。 这 个 缓存 将 会 在 
后 续 执行 函数 调用 时 重用 ( 见 图 20-6 )。 
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COIBUFFER buffer; 
COIBufferCreate (bytes, COI BUFFER NORMAL, 


0, data, 1, &proc, &buffer)); 
COIBufferWrite(buffer, 0, data, bytes, COI COPY USE DMA, 
0, NULL, NULL); 
COI ACCESS FLAGS flag - COI SINK READ; 
COIEVENT completion event; 
COIPipelineRunFunction(pipeline, func[0], 1, &buffer, 
&flag, 0, NULL, misc data, strlength, return value, 
strlength, &completion event); 
// do something else. 
COIEventWait(1, &completion event, -1, true, NULL, NULL); 
COIBufferDestroy (buffer); 
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1353 MB/s 0.20 ms 5128 MB/s 0.41 ms 2427 MB/s 


1830 MB/s 1.18 ms 3396 MB/s 0.88 ms 4555 MB/s 
10.09 ms 1585 MB/s 5.16 ms 3098 MB/s 2.74 ms 5833 MB/s 


54.11 ms 1183 MB/s 23.78ms 269] MB/s 10.24 ms 6249 MB/s 
217.96 ms 1175 MB/s 95.03 ms 2694 MB/s 39.78 ms 6435 MB/s 
872.55ms 1174 MB/s 377.83 ms 2710 MB/s 158.53 ms 6460 MB/s 


所 有 的 数据 均 为 在 初始 化 调用 一 次 后 管道 运行 函数 的 测试 结果 。 
图 20-6 COI 普通 缓冲 区 性 能 





如 图 20-5 所 示 ， 一 个 固定 缓冲 区 的 创建 和 使 用 过 程 同 普通 缓冲 区 的 实施 过 程 相 类 似 。 
为 了 创建 一 个 固定 缓冲 区 ， 只 须 替换 COIBufferCreate HJ buffer-type (缓冲 区 种 类 ) 
参数 ， 从 cor BUFFER NORMAL PY COI BUFFER PINNED, [5 20-5 中 余下 部 分 的 代码 
可 以 保持 不 变 。 顾 名 思 义 ， 当 使 用 一 个 固定 缓冲 区 时 ， 对 于 主机 和 协 处 理 器 ， 所 有 的 内 存 都 
会 预 完 分 配 。 它 同 普通 缓冲 区 在 汇 如 何 获 得 传输 数据 的 方式 上 不 同 。 在 管道 执行 函数 调用 期 
间 ， 并 非 从 源 到 汇 复制 和 缓存 整个 缓冲 区 ， 而 是 汇 可 以 通过 分 页 机 制 获取 固定 缓冲 区 的 数 
据 。 也 就 是 说 ， 在 页 面 级 别 的 访问 上 传输 数据 。 图 20-7 中 的 结果 可 以 证 明 ， 不 论 传输 数据 
量 的 大 小 ， 缓 冲 区 的 传输 时 间 仍 然 是 相对 稳定 的 。 

















| Sete . | — Et 5 
0.62 ms 1618 MB/s 0.32 ms 3144 MB/s 
2.18ms 1838 MB/s 1.06ms 3780MB/s 
10.40 ms 1539 MB/s 5.05 ms 3169 MB/s 
52.29 ms 1224 MB/s 24.57 ms 2605 MB/s 0.28 ms N/A 
231.40ms 1106 MB/s 98.04 ms 2611 MB/s 0.31 ms N/A 
947.81 ms 1080 MB/s 391.85 ms 2613 MB/s 0.36 ms N/A 





HES, “BOP TE” FRC HE. CLD Ae Hy C CE EET D E nh CUT COLD FE BAT) 
并 没有 传输 。 


图 20-7 COI 固定 缓 冲 区 的 创建 、 写 信和 传输 性 能 
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由 于 固定 缓冲 区 数据 在 基准 测试 的 汇 端 没有 访问 ， 因 此 实际 上 并 没有 缓冲 区 数据 传输 并 
且 没 有 测量 市 宽 。 如 果 一 小 部 分 固定 缓冲 区 数据 需要 通过 汇 来 访问 ， 并 且 没 有 什么 好 的 方法 
来 事先 断定 这 些 数 据 可 能 是 什么 ， 这 个 特殊 模型 才 可 能 是 有 用 的 。 

对 于 使 用 固定 缓冲 区 的 一 个 等 告 是 ， 因 为 内 存 地 址 空间 在 主机 和 协 处 理 句 上 都 是 固定 
的 ， 所 以 全 部 固定 缓冲 区 的 大 小 局 限于 协 处 理 可 上 物理 内 存 的 大 小 。 如 采 不 能 慎重 管理 ， 协 
处 理 融 内 存 可 能 会 很 快 耗 尺 。 


20.3 ”应 用 程序 

当 我 们 通过 把 主机 处 理 需 和 协 处 理 需 的 不 同 架 构 当 做 不 同 目标 来 分 离 计 算 时 ， 我 们 获得 
了 很 多 好 处 。 

e DEHE: 通常 每 个 进程 在 系统 中 都 有 明确 的 和 角色， 并 且 不 同 的 组 件 需要 通过 一 套 

API 来 通信 ， 这 就 强制 执行 了 封装 。 
e 灵活 性 : 通过 对 程序 去 耦合 ， 可 以 在 不 同 的 架构 上 执行 程序 的 不 同 部 分 。 
e PERE: 一 些 组 件 在 主机 系统 的 处 理 器 上 的 性 能 比较 好 ， 另 一 些 则 在 协 处 理 需 上 通过 
高 度 并 行 和 广泛 的 SIMD 架构 而 获得 更 多 优势 。 

这 种 程序 的 一 个 示例 是 开源 代码 Intel Embree 泻 染 器 和 高 性 能 射线 跟踪 库 ( 见 第 21 章 )。 
浑 染 计算 本 质 上 是 一 种 物理 模拟 。 它 试图 在 虚拟 3D 世界 计算 光 的 传播 方式 。 计 算 基 于 光 在 
物理 世界 传播 方式 的 粒子 模型 。 射 线 跟 踪 是 一 个 高 度 并 行 的 算法 ， 由 于 每 个 射线 计算 都 是 独 
立 于 其 他 射线 计算 的 ， 并 且 可 以 很 好 地 扩展 在 协 处理 器 的 大 量 线程 上 。 

Embree 射线 跟踪 内 核 是 一 组 加 速 数据 绪 构 ， 并 将 进一步 优化 ， 以 充分 利用 协 处 理 硕 回 
量 处 理 能 力 的 优势 。 泻 染 需 的 另 一 部 分 是 使 用 Intel ISPC 开源 编译 需 来 写 的 ， 以 充分 利用 线 
程 和 SIMD 向 量 处 理 的 优势 。 总 的 来 说 ，Embree 演 染 器 和 内 核 库 在 协 处 理 器 架构 上 运行 得 
非常 好 。 演 染 融 为 了 可 视 化 的 目的 提供 了 一 个 GUI (图 形 用 户 界面 )。 这 个 演 染 带 也 在 梦 工 
三 动画 公司 使 用 ， 那 里 提供 了 一 种 交互 式 光线 传播 模拟 来 照 亮 3D 场景。 相机、 灯光、 几何 
物体 需要 处 理 并 发 送 到 协 处理 需 进行 泻 染 工作 。 在 一 个 复杂 的 场景 中 ， 场 景 对 象 的 数量 可 能 
MILA BIL AA o 

同 Intel Xeon Phi 协 处 理 融 相 比 ， 主 机 处 理 需 在 单线 程 操作 上 人 快 得 多 。 这 对 于 磁盘 IO PR 
作 也 是 如 此 ， 巾 于 协 处 理 需 不 能 直接 访问 存储 子 系统 。 因 此 ， 在 主机 端 加 载 大 量 场景 数据 是 
符合 逻辑 的 ， 处 理 完 这 些 数 据 之 后 ， 我 们 只 需要 传输 协 处 理 需 并 行 泻 染 所 需要 的 数据 。 之 后 
会 把 泻 染 图 像 送 回 主机 ， 或 者 写成 磁盘 上 的 文件 ， 或 者 在 图 形 用 户 界面 上 显示 。 一 个 渔 染 融 
的 执行 流程 图 如 图 20-8 展示 。 






ania A _.. 

- 数据 结构 ^ MERE E 

图 20-8 Embree 演 染 各 执行 流程 。 加 载 、 转 换 和 写 人 部 分 的 计算 都 在 主机 人 处理 
需 上 运行 ,构建 和 泻 染 部 分 的 计算 是 在 协 处 理 需 上 运行 的 。 指 向 构建 的 
箭头 和 从 演 染 需 指 出 的 箭头 表示 数据 传输 发 生 的 地 方 


在 Embree 中 ， 指 令 参数 (通常 为 小 块 的 数据 )， 使 用 COI 管道 执行 函数 的 混合 数据 参 
数 来 传输 。 这 需要 程序 员 来 定义 、 串 行 化 ,一 旦 这 些 数据 传送 到 它们 的 目的 地 ， 反 序列 化 这 
些 数据 ， 以 正确 地 使 用 它们 。 
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除了 传输 吝 宽 之 外 ， 另 一 个 需要 注意 的 重要 度量 标准 是 COI 执行 函数 的 延迟 ， 即 使 没 
有 任何 缓冲 区 数据 传输 ， 延 迟 时 间 也 大 概 会 有 0.3ms。 当 处 理 大 量 的 几何 图 形 时 ， 如 果 要 一 
次 传输 一 个 几何 对 象 ， 一 百 万 个 对 象 会 占用 至 少 300s。 对 于 大 量 的 数据 传输 ， 如 几何 图 形 ， 
重用 普通 缓冲 区 来 传送 大 量 数据 是 更 有 效 的 。 从 图 20-6 所 示 的 结果 中 ， 我 们 可 以 注意 到 
COIBufferWrite 图 数 随 着 数据 量 的 增加 而 变 慢 。 这 是 由 于 基准 测试 代码 是 单线 程 的 ， 并 
且 非 一 致 性 访 存 限制 了 单 核 可 获得 的 内 存 带 宽 。 但 是 随 着 数据 量 的 增加 ， 传 输 带 宽 提 高 。 如 
果 我 们 的 目标 是 使 得 传输 大 小 为 D 的 数据 所 用 的 时 间 总 量 最 小 (缓冲 区 写 入 和 传输 )， 我 们 
需要 解决 一 个 最 小 化 的 问题 。 设 缓冲 区 的 写 带 宽 为 x， 传 输 带 宽 为 >»， 那 么 传输 大 小 为 DD 的 
数据 所 用 的 总 时 间 7 为 : 
D(x+y) 

xy 

基于 图 20-6 中 的 测量 值 ， 一 个 大 小 为 16MB 的 普通 缓冲 区 在 传输 数据 时 会 有 最 佳 的 性 
能 表现 。 这 仅仅 基于 简 个 测试 系统 配置 并 且 很 可 能 在 不 同 的 系统 上 会 有 不 同 结果 。 关 键 是 正 
确 评 估 这 些 指标 ， 并 正确 评估 它们 对 传输 速度 的 影响 ， 以 找到 对 应 用 程序 最 佳 的 方案 。 


20.4 总结 


本 章 描 述 了 如 何 使 用 COI 库 在 主机 和 协 处 理 器 间 传 输 数 据 ， 讨 论 了 不 同 种 类 缓冲 器 的 
利弊 ， 并 分 析 了 它们 的 带宽 和 延迟 性 能 。 那 些 利 用 协 处 理 器 优势 的 任何 重要 的 应 用 程序 都 会 
与 同 主机 进行 数据 通信 。 编 译 辅助 印 载 模型 提供 便利 ， 而 COI 库 提 供 控 制 。 对 于 那些 开发 
人 员 来 说 ， 当 他 们 把 应 用 程序 在 协 处 理 器 上 取得 最 佳 性 能 作为 目标 时 ， 这 将 是 一 个 重要 的 
TH. HERA mI COI 库 的 很 少 一 部 分 内 容 。 对 于 库 的 深入 使 用 感 兴 趣 的 读者 可 以 查阅 
COI 接口 文档 的 所 有 选项 。 

使 用 Embree 作为 COI 库 在 现实 世界 的 应 用 ， 我 们 示范 了 如 何 有 效 地 在 主机 和 协 处 理 需 
端 传输 不 同 种 类 的 数据 。 由 于 每 次 调用 COI 执行 函数 都 会 有 一 定 的 延迟 ， 因 此 如 果 没 有 正 
确 管 理 和 优化 ， 数 据 传输 可 能 会 大 大 降低 应 用 程序 性 能 。 

在 这 里 我 要 特别 感谢 COI 技术 主管 Russell McGuire， 感 谢 他 的 真知 灼 见 和 对 于 COI 库 
相关 问题 的 解答 。 


20.5 更 多 信息 


这 里 有 一 些 同 本 章 相关 的 阅读 材料 : 
e Intel 多 核 平台 软件 栈 (MPSS), https://software.intel.com/en-us/articles/intel-manycore- 


platform-software-stack-mpss。 


P 


e Embree, http://embree.github.io. 
e 本 章 和 其 他 章 代码 的 下 载 地 址 http:Wlotsofcores.com。 
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Gregory S. Johnson’, Ingo Wald’, Sven Woop’, Carsten Benthin', Manfred Ernst” © 
"EIE, Intel Z8] ; '/& HB, Intel 公司 
光线 追踪 是 一 种 用 于 场景 合成 的 图 像 生 成 技术 。 因 为 光线 追 蹊 模拟 现实 世界 中 的 物理 光 
传输 ， 所 以 它 可 用 来 实现 高 品质 甚至 具 更 通 真 的 结果 ( 见 图 21-1 )。 出 于 这 个 原因 ， 光 线 追 
踪 通 常 出 现 于 专业 泻 染 应 用 中 ， 如 电影 制作 、 建 筑 泻 染 ， 以 及 汽车 视觉 预览 等 。 





图 21-1 通过 Embree 内 核 构建 的 光线 追踪 顺产 生 的 图 像 。 龙 的 表面 采用 
基于 物理 的 反射 模型 来 模拟 铜 的 外 观 

但 是 ， 光 线 追 踪 是 计算 密集 型 算法 。 在 单个 图 像 的 生产 过 程 中 ， 数 以 百 万 计 的 光线 需要 
追踪 。 而 且 ， 在 跟踪 相 邻 光线 时 ， 高 品质 的 照明 效果 (如 镜面 反射 和 折射 ) 的 计算 限制 了 基 
于 高 速 缓存 的 优化 价值 。 

也 就 是 说 ， 光 线 追 踊 是 一 个 高 度 并 行 的 工作 负载 。 从 相同 图 像 的 不 同 像素 发 出 的 射线 可 
以 彼此 独立 地 追 足 ， 甚 至 任何 单一 射线 的 有 些 操作 可 以 并 行 执 行 。 原 则 上 ， 光 线 追 踪 非 常 适 
合 现代 多 核 回 量 并 行 芯 片 架 构 。 在 实践 中 ， 对 于 程序 员 一 个 关键 的 挑战 是 有 效 地 将 光线 追踪 
的 内 在 并 行 性 映射 到 芯片 的 功能 单元 上 。 

本 草 摘 述 了 一 个 名 为 Embree 的 开源 光线 追踪 框架 。 在 专业 的 这 染 应 用 中 ， 几 何 形 状 
复杂 的 场景 和 高 品质 的 照明 效果 都 是 很 常见 的 。Embree 旨 在 针对 专业 的 泻 染 应 用 获得 非常 
好 的 性 能 。Embree 由 一 组 加 速 基 本 光线 追踪 运算 的 低层 计算 内 核 组 成 。 这 些 内 核 通过 组 合 
使 用 多 线程 以 及 特定 指令 集 架 构 CISA) 的 向 量化 ， 最 大 化 地 利用 现代 的 x86 架构 。 通 过 一 
个 高 层 API， 可 以 以 最 小 的 编码 量 来 将 这 些 内 核 用 于 现 有 的 泻 染 应 用 CE) 中 。 本 章 展 
示 了 光线 追踪 的 概况 ， 介 绍 了 Embree 中 如 何 采 用 并 行 化 方法 使 其 在 Intel Xeon 处 理 需 以 及 
Intel Xeon Phi 协 处 理 上 获得 高 性 能 ， 并 通过 示例 代码 演示 了 在 一 个 全 演 染 应 用 中 如 何 使 用 
Embree 内 核 。 

”日 、 当 前 工作 单位 :美国 谷歌 公司 
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光线 追踪 中 最 基本 的 运算 即 通过 给 定 方向 〈 即 一 条 光线 ) 上 给 定 的 点 ， 判 断 场景 中 的 物 
体 是 否 可 见 。 这 项 操作 可 以 用 来 泻 染 图 像 ， 如 图 21-2 所 示 。 照 相机 通过 像 平面 的 每 一 个 像 
素 点 发 射 一 条 或 者 多 条 光线 。 在 每 一 个 击 中 点 ， 如 果 表面 是 反射 性 的 或 者 半 透 明 的 ， 可 能 会 
产生 一 条 辅助 光线 。 该 过 程 会 继续 递归 进行 ， 直 到 有 截止 情况 发 生 (例如 ， 光 线路 径 的 长 度 ) 
或 者 光线 不 能 穿 过 某 个 物体 。 给 定 像 素 的 颜色 是 由 沿 着 光线 路 径 的 照明 情况 来 决定 的 ， 并 且 
是 对 经 像素 发 出 的 光线 求 平 均值 的 结果 。 





场景 几何 图 元 


辅助 光线 


t 
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图 21-2 光线 追踪 中 的 一 种 基本 操作 用 于 检测 与 光线 相交 的 物体 。 一 条 或 多 条 主 光 
线 可 以 通过 像 平 面 中 的 每 个 像素 进行 追踪 。 在 每 个 击 中 点 会 产生 辅助 光线 


此 操作 的 一 个 简单 实现 会 检测 每 条 光线 与 场景 中 每 个 几何 图 元 的 交叉 点 。 然 而 ， 包 含 
数 以 百 万 计 的 图 元 以 及 数 以 百 万 计 的 光线 泻 染 的 场景 所 需 计 算 量 是 难以 想象 的 。 出 于 这 个 
原因 ， 场 景 几 何 通常 存储 在 分 层 的 空间 数据 结构 内 ， 例 如 一 个 受 限 容量 层次 结构 (BVH)( 见 
图 21-3 )。 对 每 条 光线 与 数据 结构 的 根 节点 ( 即 全 局 场景 边界 ) 的 交叉 点 进行 检测 ， 然 后 检 
测 由 光线 遍历 的 场景 的 受 限 子 区 域 的 子 节 点 。 实 际 场景 几何 存储 在 叶 节 点 中 ， 这 也 是 执行 光 
线 几 何 图 元 交叉 点 检测 的 地 方 。 使 用 这 样 的 数据 结构 显著 降低 了 生成 图 像 时 交叉 点 检测 的 总 
次 数 ， 但 是 增加 了 代码 并 行 化 的 复杂 度 。 





场景 几何 图 元 





受 限 容量 受 限 容量 层次 结构 
K 21-3 受 限 容量 层次 结构 (BVH) 可 以 减少 光线 几何 图 元 交叉 点 检测 的 次 数 。BVH 中 
的 每 个 节点 存储 了 其 子 节点 所 包含 空间 区 域 的 并 集 ， 场 景 几 何 图 元 存储 在 子 节 
点 。 在 场景 中 互相 接近 的 物体 存放 在 BVH 中 的 邻居 节点 中 


21.2 问 量 化 的 光线 贺 历 
在 任务 级 别 ， 光 线 追 踪 是 非常 容易 平行 的 。 与 图 像 中 不 同 像素 点 相关 联 的 光线 可 以 独立 
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地 追踪 。 像 素 块 通常 通过 不 同 线程 泻 染 ， 而 分 块 大 小 以 及 线程 分 配 应 尽 可 能 达到 负载 均衡 ， 
同时 保护 相同 分 块 中 邻居 光线 之 间 的 空间 相关 性 。 

但 是 ， 使 光线 追踪 算法 有 效 地 利用 现代 CPU 处 理 器 的 向 量 单元 是 非常 困难 的 。 例 如 ， 
在 层次 化 的 空间 数据 结构 下 ， 光 线 的 行进 需要 细 粒 度 的 数据 依赖 分 文 以 及 非 规则 内 存 访问 模 
式 ， 这 妨碍 了 自动 向 量化 。 更 糟 的 是 ， 将 这 样 的 内 核 以 最 优 的 方式 映射 到 特定 ISA P, BJ 
使 对 于 有 经 验 的 程序 员 也 并 非 易 事 。 

通过 将 不 同 的 光线 分 配 到 不 同 的 向 量 通道 且 通 过 BVH 追 踊 光 线 “ 束 ”， 对 光线 遍历 进 
行 向 量化 是 可 能 的 。 因 为 光线 束 仍 踪 是 不 依赖 于 向 量 单元 宽度 或 ISA 的 ， 所 以 它 可 以 广泛 
应 用 并 且 可 以 在 空间 相关 光线 ( 即 具有 相似 起 点 以 及 方向 的 光线 ) 上 获得 很 高 的 回 量 单元 利 
用 率 。 然 而 ， 对 于 非 空间 相关 光线 〈 低 向 量 单元 利用 率 )， 光 线束 追踪 效果 相对 较 差 ， 同 时 
必须 对 泻 染 器 并 行 化 ， 以 便 可 以 同时 追踪 多 条 光线 。 

或 者 ， 对 于 单条 光线 ， 空 间 数 据 结构 的 遍历 也 可 以 向 量化 ( 称 为 “ 单 光 线 癌 量化 ”)。 例 
W, ZX BVH 结构 可 以 实现 多 个 节点 或 几何 图 元 与 同一 光线 交叉 点 的 并 行 检 测 。 对 于 每 
个 节点 拥有 4 个子 节点 的 BVH 数据 结构 ， 可 以 很 好 地 使 用 宽度 为 4 以 及 16 的 向 量 单元 ， 
但 较 高 的 分 支 因数 降低 了 优化 效果 。 

一 般 来 说 ， 对 于 非 相 和 干 光线 ， 单 光线 的 回 量 化 速度 比 光 线束 追踪 要 快 ， 并 且 可 以 在 标量 
泻 染 器 中 使 用 ， 而 在 相干 光线 束 中 情况 却 相 反 。 出 于 这 个 原因 ， 一 种 在 两 者 之 间 动 态 切换 的 
混合 技术 正在 发 展 ， 即 在 光线 相关 时 采用 包 追 踪 ， 非 相干 时 则 切换 到 单 光线 的 向 量化 。 


21.3 Embree 光线 追踪 内 核 


开发 Embree 的 动力 来 自 于 以 下 4 种 观点 。 第 一 ， 全 功能 的 演 染 需 可 以 由 一 小 组 笛 用 的 
光线 跟踪 操作 (例如 ，BVH 建立 和 遍历 ) 建成 。 第 二 ， 虽 然 CPU 架构 原则 上 适用 于 其 中 具 
有 丰富 的 细 粒 度数 据 相 关 分 支 (例如 ， 分 层 数 据 结构 的 遍历 ) 的 计算 密集 型 工作 负载 ,但 是 
实现 高 吞吐 量 实 际 上 是 极 具 挑 战 的 。 第 三 ， 射 线 追 踪 广 泛 用 于 专业 泻 染 中 ,并 且 有 必要 在 这 
些 应 用 中 实现 高 性 能 。 第 四 ， 近 期 的 很 多 关于 光线 追踪 加 速 的 研究 工作 还 没有 找到 切实 可 用 
的 方法 ， 这 是 由 于 将 这 些 技术 集成 到 现 有 泻 染 融 的 复杂 性 以 及 特殊 性 导致 的 。 

基于 上 述 观 点 ，Embree 针对 x86 架构 实现 了 一 组 低级 别 高 性 能 内 核 ， 主 要 面向 BVH Zi 
构 、 光 线 壳 历 ， 以 及 光线 三 角形 交叉 点 。 这 些 内 核 利 用 了 多 个 层次 的 并 行 性 ， 其 中 的 重点 是 
高 效 的 向 量化 技术 以 及 最 新 的 优化 技术 。 在 不 同 的 工作 负载 以 及 指令 级 架构 上 获得 高 性 能 需 
要 对 每 个 内 核 提 供 不 同 版 本 的 代码 。 

在 Intel Xeon Phi 协 处 理 器 上 ， 光 线束 追踪 (针对 空间 相干 光线 ) 和 单 光线 遍历 (针对 非 
相干 光线 ) 均 支 持 ， 同 时 支持 两 种 方法 在 运行 时 的 动态 切换 。 在 追踪 光线 束 时 ，16 条 光线 同 
时 追踪 。 与 此 相反 ， 在 BVH 的 单一 光线 过 历 中 ， 关 于 该 光线 的 4 个 包围 盒 并 行 检 测 ， 并 且 交 
叉 点 检测 的 每 个 坐标 轴 (Ex, y, z) 可 以 并 行 计算 。 类 似 地 ， 在 BVH 子 节点 的 单一 光线 交 
叉 点 中 ， 关 于 该 光线 的 4 个 三 角形 可 以 并 行 检测 ， 并 且 每 个 交叉 点 的 3 个 坐标 可 以 同时 计算 。 

在 一 个 应 用 程序 中 ，Embree 内 核 可 以 通过 高 层次 的 API 来 访问 ， 这 屏蔽 了 数据 结构 内 
存 布局 以 及 ISA 优化 等 实现 细节 。 这 些 内 核 依次 由 一 组 通用 组 件 创建 ， 其 中 这 些 组 件 对 原 
子 操作 、 疝 量 并 行 操作 、 同 步 以 及 多 线程 等 进行 了 跨 平台 封 狼 。 通 过 这 一 层 ， 可 以 对 目前 
所 有 的 x86 体系 结构 ， 操 作 系 统 ( Linux, Microsoft Windows, 3#52 Mac OS), UR inikas 
(Intel C++ 编译 器 、GCC 、Clang， 以 及 Microsoft Visual Studio) 进行 支持 。 
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21.4 在 应 用 程序 中 使 用 Embree 


Embree 内 核 可 以 很 容易 使 用 在 现 有 的 泻 染 吕 中。 但 是 (如 在 许多 应 用 中 )， 在 演 染 器 的 
性 能 和 并 行 化 程度 之 间 具 有 三 方面 折 中 。Embree 单 光线 的 SIMD 内 核 可 以 使 用 在 标量 演 染 
需 中 ， 而 且 在 向 量 宽 度 为 4 时 往往 能 取得 良好 的 利用 率 。 然 而 ， 单 光线 方法 在 向 量 宽度 为 
16 的 单元 (例如 ，Intel Xeon Phi 协 处 理 器 ) 上 效果 较 差 。 为 了 获得 高 利用 率 ， 光 线束 与 单 
一 光线 的 混合 技术 是 必需 的 ， 并 且 需 要 演 染 器 可 以 并 行 产生 多 条 光线 。 

在 Intel Xeon 处 理 器 以 及 Intel Xeon Phi 协 处 理 需 上 ， 有 几 种 方法 可 以 实现 一 个 并 行 演 染 
fo Intel 的 SPMD 程序 编译 器 (ispc) 是 其 中 一 种 选择 。 图 21-4 给 出 了 一 段 ispe 代码 ， 该 代 
码 实现 了 一 个 可 以 并 行 发 射 多 条 光线 的 简单 演 染 器 ( 见 图 21-5). ispe 采用 了 C89 的 大 部 分 
语言 规范 ， 以 及 C99 和 C++ 的 部 分 特性 ， 从 语言 级 支持 任务 并 行 ， 并 通过 关键 字 支 持 数据 并 
行 。 在 不 同 的 ISA 以 及 向 量 宽度 上 代码 无 须 重 写 ， 这 是 SPMD 编程 模型 的 一 个 关键 优势 。 


/* Render a tile of pixels in the image. */ 

task void renderTile (uniform int* uniform pixels, 
const uniform int imageWidth, 
const uniform int imageHeight, 
const uniform Camera& camera) 


/* Tile indices. */ 

uniform int tileCountX = (imageWidth .+ TILE WIDTH - 1) / TILE WIDTH; 
uniform int tileIndexY - taskIndex / tileCountX; 

uniform int tileIndexX = taskIndex - tileIndexY * tileCountX; 


/* Tile extents in image coordinates. */ 

tileIndexX * TILE WIDTH; 

tileIndexY * TILE HEIGHT; 

min(xO + TILE WIDTH, imageWidth); 
min(yO + TILE HEIGHT, imageHeight); 


uniform int x0 
uniform int y0 
uniform int xl 
uniform int yl 


/* Render pixels across SIMD lanes. */ 
foreach (y = yO ... yl, x = x0 ... xl) { 


Vec3f color = renderPixel(x, y, camera); 

unsigned int r = (unsigned int) (255.0f * clamp(color.x, 0.0f, 
unsigned int g (unsigned int) (255.0f * clamp(color.y, 0.0f, 
unsigned int b (unsigned int) (255.0f * clamp(color.z, 0.0f, 
pixels[y * imageWidth + x] = (b << 16) + (g << 8) + r; 


} 


/* Called by the C++ code to render an image. */ 

export void renderImage (uniform int* uniform pixels, 
const uniform int imageWidth, 
const uniform int imageHeight, 
const uniform Camera& camera) 


/* Image dimensions in tiles. */ 

uniform int tileCountX (imageWidth + TILE WIDTH - 1) / TILE WIDTH; 
uniform int tileCountY (imageHeight + TILE HEIGHT - 1) / TILE HEIGHT; 
uniform int tileCount tileCountX * tileCountY; 


/* Render tiles of pixels on different threads. */ 
launch[tileCount] renderTile(pixels, imageWidth, imageHeight, camera); 


/* Wait until all tiles have been rendered. */ 
Sync; 





图 21-4 ispc 代码 实现 了 一 个 可 以 使 用 Embree 光线 追踪 的 简单 泻 染 器 。 该 计算 是 多 线程 和 向 量化 的 





图 21-5 一 个 使 用 了 Embree 光线 追踪 内 核 的 样 例 程序 的 输出 结 
果 。 该 应 用 中 泻 染 融 部 分 的 代码 见 图 21-4 以 及 图 21-6 


/* Compute a color at the hit point of the ray. */ 
Vec3f shadePixel(const RTCRay& ray) ( 


/* Look up the color associated with the hit primitive. */ 
Vec3f color = colorLookupTable[ray.primID] * 0.5f; 


/* A vector in the direction of the simulated light source. */ 
Vec3f lightVector - normalize(Vec3f(-1.0f, -1.0f, -1.0£)); 


/* Cosine of the light vector and surface normal for diffuse shading. £j 
float weight = clamp(-dot(lightVector, normalize(ray.Ng)), 0.0f, 1.0f) ; 


/* Initialize a shadow ray. */ 

RTCRay shadowRay; 

shadowRay.org = ray.org + ray.tfar * ray.dir; 
shadowRay.dir - neg(lightVector); 
shadowRay.tnear - 0.001f; 

shadowRay.tfar - inf; 

shadowRay.geomID = RTC INVALID GEOMETRY ID; 
shadowRay.primID RTC INVALID GEOMETRY ID; 


/* Determine if the original hit point is occluded. */ 
rtcOccluded(sceneID, shadowRay); 


/* Add a diffuse component if the hit point is not in shadow. */ 
return((shadowRay geomID »- 0) ? color : color + color * weight); 


} 


/* Render a pixel in the image. */ 
Vec3f renderPixel(float x, float y, const uniform Camera& camera) { 


/* Initialize a primary ray. */ 

RTCRay ray; 

ray.org = camera.position; 

ray.dir = normalize(x * camera.vx + y * camera.vy + camera.vz); 
ray.tnear - 0.0f; 

ray.tfar - inf; 

ray.geomID = RTC INVALID GEOMETRY ID; 

ray.primID = RTC INVALID GEOMETRY ID; 


/* Find the nearest object in the scene hit by the ray. */ 
rtcIntersect(sceneID, ray); 


/* Compute shading if an object in the scene was hit by the ray. */ 
return((ray.geomID >= 0) ? shadePixel(ray) : Vec3f(0.0f, 0.0f, 0.0£)); 





21-6 通过 Embree API 调用 Embree 内 核实 现 的 用 于 泻 染 简单 阴影 下 单一 像素 的 ispc 代码 
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图 21-6 展 示 了 一 段 ispc 代 码 ， 该 代码 可 以 利用 Embree API 来 追踪 一 条 特定 光线 。 
Embree API 包含 如 下 功能 : 几何 图 元 定义 ， 在 几何 图 元 上 构建 BVH (并 未 在 这 里 展示 )， 发 
布 交 义 点 以 及 阻塞 查询 。 尽 管 使 用 API 不 是 必需 的 ， 但 它 可 以 简化 应 用 程序 的 开发 。 重 要 
的 是 ，API 隐藏 了 技术 细节 ， 例 如 在 特定 的 几何 图 元 以 及 ISA 下 ,哪些 内 核 和 内 存 中 的 数据 
布局 可 以 获得 最 佳 性 能 。 该 API 假设 内 核 以 及 应 用 程序 在 相同 的 地 址 空间 中 。 


21.5 TERE 


图 21-8 展示 了 Intel Xeon Phi 7120 HEHEA (61 核 ，1.28GHz) 上 的 光线 遍历 速率 ， 其 
中 对 直接 以 及 间接 照明 的 3 PRE BE EL A) 21-7 所 示 的 4 种 场景 进行 了 性 能 对 比 。 人 性 能 
示 包 括 如 下 三 方面 : 对 基于 C++ 实现 的 基于 标量 光线 追踪 的 标量 演 染 需 ， 使 用 Embree 单 
光线 SIMD 内 核 的 标量 泻 染 器 ， 以 及 利用 ispc 以 及 Embree 光线 束 / 单 光 线 SIMD 内 核 的 混 
合 技术 实现 的 并 行 泻 染 硕 。 标 量 泻 染 硕 中 没有 显 式 的 同 量 化 代码 ， 但 是 也 利用 了 Embree 中 
的 几 个 高 效 类 ， E (Plan, si. Bl) 以 及 相关 操作 ， 这 些 操作 可 以 目 
动 映射 到 低层 的 SIMD 类 型 以 及 指令 。 我 们 使 用 了 2.2 版 本 的 Embree 内 核 库 ， 并 通过 Intel 
Composer XE 14.0.1 以 及 Intel ispe 1.6.0 进行 构建 。 里 然 这 些 结 果 对 基于 Embree 内 核 库 实 
现 的 完整 渲染 器 所 能 达到 的 性 能 具有 指示 作用 ， 但 程序 员 在 实际 中 获得 的 性 能 由 具体 应 用 以 
及 工作 负载 而 定 . 
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图 21-7 在 性 能 测试 中 使 用 的 模型 : 前 大 灯 ( 80 万 个 三 角形 )，TurboSquid 的 宾 
fi (230 万 个 三 角形 )，Martin Lubich 的 奥地利 皇冠 ( 480 万 个 三 MEX) 
以 及 斯 坦 福 大 学 计算 机 图 形 实 验 室 的 龙 (740 万 个 三 角形 ) 
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8g Scalar kernels, Eg Embree single-rayk ernels, © Embree hybrid kernels, 
scalar renderer scalar renderer parallel renderer 


图 21-8 不 同 级 别 向 量化 下 三 种 泻 染 器 的 性 能 ( 越 高 越 好 )。 给 出 的 结果 是 总 的 光线 追踪 数 除 以 
总 帧 时 间 ， 包 括 采 样 (每 像素 16 个 样本 ) 和 阴影 (通常 为 总 帧 时 间 的 30% 一 50%) 
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向 量化 在 泻 染 需 中 可 以 提升 阴影 和 采样 的 性 能 ， 并 且 可 以 使 用 Embree 光线 束 内 核 以 及 
混合 遍历 内 核 。 这 些 结果 说 明了 这 两 方面 的 好 处 ， 同 时 也 表明 完全 向 量化 的 泻 染 需 对 开发 具 
有 宽 疝 量 长 度 的 体系 结构 的 计算 能 力 十 分 重要 。 在 一 些 情况 下 ， 设 计 限 制 或 所 需 工 作 量 会 
浑 染 需 的 同 量 化 不 可 行 。 在 这 些 情 况 下 ， 单 光线 的 Embree SIMD 内 核 仍 可 用 来 提升 光线 遍 
历 的 性 能 。 

但 是 Embree 的 性 能 与 最 新 的 图 形 处 理 单元 (GPU) 相 比 会 怎么 样 呢 ? 图 21-9 对 比 了 一 
个 基于 Embree 混合 光线 束 / 单 光线 SIMD 内 核 的 ispc 并 行 演 染 器 与 一 个 NVIDIA OptiX 架 
构 上 基于 GPU 实现 的 泻 染 器 的 性 能 。OptiX 简化 了 NVIDIA GPU 上 高 性 能 泻 染 器 的 开发 ， 
它 集成 了 低级 别 内 核 ， 一 个 可 编程 的 光线 追踪 流水 ， 一 个 特定 领域 的 编程 模型 和 编译 硕 ， 以 
及 一 个 场景 图 规范 (在 这 里 使 用 了 Optix 3.5.1 以 及 CUDA 5.5 ) 。 这 两 种 泻 染 器 都 只 计算 漫 
反射 阴影 ， 从 而 最 小 化 应 用 程序 特定 的 计算 对 滨 染 时 间 的 影响 。 在 所 有 情况 下 ，Intel Xeon 
Phi 7120 Pp 4h Zl 2$ [- Embree 演 染 右 的 表现 不 逊色 于 Optix 在 NVIDIA GeForce GTX Titan 
上 的 表现 。 
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图 21-9 在 NVIDIA Optix 系统 上 基于 GPU 实现 的 并 行 泻 染 器 的 性 能 ( 越 高 越 好 )， 
以 及 一 个 基于 Embree 混合 光线 束 / 062€ SIMD 内 核 的 ispe FFT ie HF 


21.6 总结 
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是 计算 密集 型 的 ， 但 它 也 是 一 种 高 度 并 行 的 工作 负载 。 因 此 ， 光 线 追 踪 受 益 于 现代 处 理 需 架 
构 ， 这 些 结构 通过 功能 单元 的 并 行 性 (例如 ， 多 核 ) 以 实现 高 吞吐 量 。 与 图 像 中 不 同 像素 点 
相关 联 的 射线 可 以 独立 地 追 中 ， 并且 每 条 光线 上 的 操作 通常 可 以 并 行 执行 。 这 种 丰富 的 并 行 
性 可 以 通过 多 种 方式 映射 到 多 核 问 量 处 理 硕 和 协 处 理 各 上。 但 是 ， 对 于 程序 员 ， 产 生 最 佳 性 
能 的 映射 并 不 总 是 显而易见 的 。 例 如 对 于 光线 束 追 踪 ， 在 光线 出 现 分 文 (在 辅助 光线 下 这 是 
ULL) 时 ， 简 单 的 向 量化 策略 会 减少 收益 。 

Embree 通过 提供 一 系列 光线 追踪 通用 操作 内 核 来 解决 这 一 难题 ， 并 对 不 同 的 向 量 宽度 、 
工作 负载 (例如 ， 相 干 和 非 相 干 光线 分 布 ， 静态 和 动态 的 场景 )， 以 及 应 用 特定 需求 (例如 ， 
最 大 的 性 能 或 最 小 的 内 存 使 用 量 ) 分 别 进 行 调 优 。 通 过 这 些 内 核 构建 的 泻 染 需 , 使 BVH 构 
建 以 及 光线 遍历 在 Intel Xeon Phi 协 处 理 器 上 获得 的 性 能 可 以 媲美 (通常 高 于 ) 任何 现 有 的 
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CPU 或 GPU。 

此 外 ，Embree 内 核 方法 是 广泛 适用 的 ， 并 且 避 免 为 演 染 器 带 来 设计 或 目标 平台 上 的 限 
制 。 例 如 ，Embree 内 核 可 使 泻 染 器 以 最 高 性 能 并 行 追 踪 多 条 光线 ， 但 并 不 要 求 该 泻 染 器 是 
并 行 的 。 通 过 相同 的 API，Embree 单 光 线 SIMD 内 核 可 以 用 于 标量 泻 染 器 中 。 通 过 对 两 种 
FE HY Yet YL AE TES PP ISA 上 的 无 缝 支持 ，Embree 可 以 使 开发 人 员 从 标量 泻 染 逐 渐 过 渡 到 完全 
FITTAR, HAUA Intel 处 理 器 和 协 处理 器 之 间 切 换 。 


21.7 更 多 信息 


下 面 是 Intel 处 理事 以 及 协 处 理 右 上 关于 高 性 能 光线 追踪 的 补充 阅读 材料 : 

e 本 章 示 例 中 对 应 的 完整 的 源 代码 : https://github.com/embree/embree/tree/master/tutorials/ 
tutorlal00。 

e Embree 技术 概述 : http://embree.github.io。 

Embree 内 核 库 的 源 代码 : https://github.com/embree. 

e Embree a kernel framework for efficient CPU ray tracing. ACM Transactions on 
Graphics(Proceedings of ACM SIGGRAPH), 2014. 

e Intel SPMD 程序 编译 器 : https://ispc.github.io. 
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High Performance Parallelism Pearls: Multicore and Many-core Programming Approaches 


OpenCL 程序 的 可 移植 性 能 





Simon McIntosh-Smith', Tim Mattson’ 
“英国 ， 布 里 斯 托 大 学 ,1 美国 ，Intel 


用 于 异 构 计 算 平 台 的 现代 多 核 处 理 融 ， 都 会 使 用 多 线程 编程 模型 进行 多 核 编 程 ， 并 且 每 
个 内 核 都 有 问 量 计算 单元 。Intel Xeon 处 理 器 是 如 此 ，Intel Xeon Phi 协 处 理 需 更 是 如 此 。 每 
台 计 算 机 都 是 一 个 异 构 计算 系统 ， 这 是 OpenCL 标准 不 断 完善 的 动力 。 在 传统 异 构 计 算 中 ， 
CPU 和 GPU 使 用 不 同 的 编程 模型 。 

理想 情况 下 ， 编 译 需 能 够 通过 使 用 循环 展开 和 重 构 等 方法 对 应 用 程序 自动 进行 回 量 化 优 
化 ， 使 最 内 层 的 指令 块 可 以 映射 到 处 理 需 的 回 量 指令 集 上 。 但 实际 上 ， 编 译 硕 目 动 回 量 化 的 
效果 并 不 是 很 好 。 因 此 ， 为 提高 应 用 程序 性 能 ， 程序 员 不 得 不 将 代码 修改 为 编译 器 可 问 量 化 
的 形式 ， 或 者 使 用 新 编程 语言 定义 的 显 式 回 量化 结构 类 型 ， 甚 至 直接 使 用 类 汇编 代码 的 内 部 
哺 数 。 这 样 产生 的 代码 将 对 向 量 指令 的 宽度 非常 敏感 ， 因 此 具有 高 度 不 可 移植 性 。 

本 章 将 详细 讨论 如 下 假设 : 如 果 将 多 核 处 理 髓 系统 看 作 异 构 计 算 平 台 ， 那 么 可 通过 
GPU 的 编程 方式 对 其 编程 : 将 单个 编程 模型 用 于 多 核 和 加 量化 编程 。 更 进一步 讲 ， 这 些 程 
序 也 可 以 很 好 地 运行 在 GPU 计算 平台 上 。 这 样 ， 应 用 程序 便 具有 更 好 的 移植 性 ， 从 而 最 大 
可 能 地 分 挫 编 程 成 本 。 

本 章 使 用 的 编程 模型 是 OpenCL。 首 先 ， 本 章 使 用 和 矩阵 乘 示 例 介 绍 OpenCL 的 关键 概 
念 ， 并 通过 精心 优化 ， 使 矩阵 乘 算 法 在 Intel Xeon Phi 协 处 理 需 上 的 性 能 达到 其 峰值 性 能 
较 高 百分比 。 然 后 ， 本 章 将 介绍 一 个 真实 的 案例 研究 : BUDE 分 子 对 接 。OpenCL 版 本 的 
BUDE 代码 性 能 可 达到 Intel Xeon Phi 协 处 理 器 上 峰值 性 能 的 32%。 同 时 ， 在 多 个 并 行 硬件 
平台 上 【包括 处 理 咒 和 多 个 厂商 的 GPU )， 都 可 以 达到 对 应 峰值 性 能 的 较 高 百分比 。 


22.1 两 难 的 困境 

越 来 越 多 的 并 行 计算 意味 着 可 以 在 包含 不 同 处 理 元 件 的 异 构 环境 中 运行 应 用 程序 。 程 序 
员 人 负责 将 应 用 程序 映射 到 CPU 线程 中 的 标量 指令 或 者 回 量 计算 单元 的 回 量 指令 ， 或 者 将 任 
务 块 转移 到 协 处理 需 甚至 GPU 上 。 每 个 计算 平台 都 在 快速 改进 ， 并 提出 一 个 目标 : 可 以 兼 
容 两 代 产 品 在 架构 上 发 生 的 根本 变化 。 

应 用 程序 开发 者 只 编写 一 个 简单 的 串 行 程序 就 可 以 涵盖 所 有 目标 计算 平台 的 时 代 一 去 不 
复 返 了 。 应 用 程序 开发 者 编写 的 程序 ， 不 但 能 够 高 效 运行 在 目前 所 有 的 硬件 平台 上 ， 而 且 要 
能 够 运行 在 将 来 的 计算 平台 上 。 这 是 因为 应 用 软件 的 生命 周期 一 般 会 比 硬件 平台 的 生命 周期 
Ko 程序 员 不 太 可 能 只 针对 单一 硬件 平台 而 忽略 其 他 平台 

这 最 终 会 叶 致 一 个 两 难 的 困境 。 程 序 员 面 临 着 看 似 对 立 的 紧张 局 面 : 一 方面 ， 需 要 针对 
使 用 的 并 行 和 异 构 计 算 平 台 的 特定 硬件 进行 编程 ; 另 一 方面 ， 需 要 管理 软件 的 复杂 性 ， 在 理 
想 情况 下 ， 一 个 代码 库 可 以 支持 所 有 相关 计算 系统 。 

OpenCL 可 用 来 解决 众 核 程序 员 的 两 难 选择 。 本 章 将 不 讨论 OpenCL 是 否 为 异 构 编 程 的 
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最 佳 选择 。 程 序 员 可 自由 选择 任意 方法 来 满足 自己 的 需求 ， 而 且 希 望 所 有 程序 员 都 使 用 同一 
方法 是 没有 好 处 的 。OpenCL 是 第 一 个 广泛 使 用 的 并 力求 涵盖 FPGA 、CPU、 协 处 理 右 、GPU 
以 及 其 他 加 速 器 的 开发 标准 。 对 于 需要 支持 如 此 广泛 计算 平台 的 程序 员 来 说 ，OpenCL 是 解 
决 这 个 两 难 困境 的 最 佳 选择 。 因 此 ， 了 解 OpenCL 标准 并 学 会 如 何 使 用 ， 是 非常 重要 的 。 


22.2 OpenCL 简介 


OpenCL 是 一 个 解决 上 节 提 出 的 异 构 计算 系统 面临 的 两 难 困 境 的 行业 标准 。 使 用 
OpenCL 可 以 实现 “一 份 代 码 运 行 于 多 个 异 构 系 统 ” 的 目标 。 

OpenCL 1.0 于 2008 年 下 半年 发 布 ， 到 2009 年 年 中 , 已 经 被 多 个 CPU Al GPUS H 
文 持 。 随 后 ，OpenCL 标准 经 过 了 快速 调整 和 改进 (2010 年 发 布 OpenCL 1.1, 2011 年 发 布 
OpenCL 1.2 )， 并 在 2013 年 发 布 了 OpenCL 2.0. OpenCL 的 快速 发 展 ， 对 于 程序 员 的 与 时 俱 
进 提出 了 严峻 的 挑战 。 然 而 ， 因 为 计算 硬件 迅猛 的 发 展 速 度 ， 这 些 改进 是 必需 的 。 

本 节 将 讨论 OpenCL 的 核心 特征 ， 从 OpenCL 标准 发 布 之 日 起 ， 这 些 特征 并 没有 进行 大 
的 变动 。 我 们 将 通过 以 下 几 个 模型 介绍 OpenCL: 

e 平台 模型 

e 执行 模型 

e 内 存 模 型 

OpenCL 平台 模型 如 图 22-1 所 示 ， 它 由 一 个 主机 和 一 个 或 者 多 个 设备 构成 。 主 机 定义 为 
基于 CPU 并 支持 文件 IO、 用 户 交 互 和 其 他 传 
统 笔记 本 电脑 和 服务 器 具有 的 基本 功能 的 计算 
机 。 设 备 定义 为 执行 OpenCL 程序 中 大 块 计 算 
任务 的 计算 部 件 ， 如 GPU 、 众 核 协 处 理 器 和 其 
他 实现 OpenCL 的 专用 设备 。 每 个 设备 由 一 
或 者 多 个 计算 单元 (Compute Unit, CU) 构成 ， 
每 个 CU 由 一 个 或 者 多 个 计算 元 件 ( Processing 
Element，PE) 构成 。PE 为 OpenCL 程序 中 最 
细 粒 度 的 计算 单元 。 

当 进 行 OpenCL 程序 优化 时 ， 平 台 模 型 给 
予 程序 员 一 个 硬件 抽象 。 然 后 ， 通 过 学 习 平 台 模 型 到 不 同 目标 计算 平台 的 映射 方式 ， 程 序 员 
可 以 在 不 牺牲 可 移植 性 的 前 提 下 优化 软件 。 

OpenCL 程序 按照 细 粒 度 SPMD (Single Program Multiple Data， 单 程序 多 数据 ) 的 模式 
执行 。 考 虑 图 22-2a 给 出 的 抢 阵 乘 的 串 行 程序 : 其 中 包含 一 个 三 层 的 能 套 循环 ， 通 过 求 和 矩阵 
A 的 第 ; 行 和 和 矩阵 中 的 第 7 列 的 又 积 ， 计 算 目 标 和 矩阵 元 素 (i,j). 

OpenCL 的 核心 思想 是 定义 1、2 和 3 维 的 索引 空间 。 程 序 员 可 以 将 具体 问题 映射 到 该 索引 
空间 上 。 同 时 ， 将 执行 主要 计算 过 程 的 代码 块 定 义 为 核 (在 索引 空间 中 每 个 点 运行 的 代码 实例 )。 

对 于 矩阵 乘 代 码 ， 我 们 将 最 外 层 的 两 层 循环 映射 到 一 个 二 维 索 引 空 间 上 ， 和 定义 核 运 行 
最 内 存 循环 (在 上 上 )。 然 后 ， 我 们 在 索引 空间 的 每 个 点 上 运行 核实 例 ， 在 OpenCL 语法 中 
称 为 工作 项 。 图 22-2a 和 图 22-2b 分 别 给 出 了 甜 阵 乘 的 串 行 代码 和 对 应 的 核 函 数 。 比 较 这 两 
段 代 码 可 以 发 现 : 串 行 代码 中 的 最 外 两 层 循环 被 查询 索引 空间 中 工作 项 的 索引 操作 代替 。 最 
后 ， 我 们 在 索引 空间 的 每 个 点 都 执行 该 核 的 具体 实例 来 完成 计算 。 





CU OpenCL 设 备 

图 22-1 OpenCL 平台 模型 : 一 个 主机 和 多 个 
设备 。 每 个 设备 有 一 个 或 者 多 个 CU， 
每 个 CU 有 一 个 或 者 多 个 PE 
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void mat mul(const unsigned int Order, 
const float *A, 
const float *B, 


float *C) 


IME A Ju Rg 


for (i20; i < Order; i++) 


for (j=0; j < Order; 
for (k = 0; k < Order; k++) 
C{i*Order+j] += A[i*Order+k] * B[k*Order+j]; 


j++) 


_ kernel void mat mul(const unsigned int Order, 


int i, Je ks 


__ global const float *A, 
. global const float *B, 


. global 


i = get global id(0); 

j » get global id(1); 

for (k = 0; k < Order; k++) 
C[{i*Order+j] += A[{i*Order+k] * B[k*Order+j]; 





b) 


float *C) 


图 22-2 a) EERE; b) OpenCL 核 中 的 并 行 矩 阵 乘 
图 22-3 给 出 了 OpenCL 程序 更 详细 的 执行 过 程 ， 这 个 过 程 总 结 了 OpenCL 执行 模型 。 全 


局 索引 空间 (在 这 个 例子 中 为 16*16 )， 包 含 
子 在 每 个 点 执行 核实 例 的 一 组 工作 项 。 这 些 
工作 项 分 成 了 许多 与 全 局 索引 空间 有 相同 形 
状 的 工作 项 块 ， 称 为 工作 组 ， 工 作 组 覆盖 整 
个 索引 空间 。 

逻辑 上 ， 同 属于 一 个 工作 组 内 的 所 有 
工作 项 一 起 执行 。 因 此 ， 它 们 可 以 在 执行 过 
程 中 同步 和 共享 内 存 。 但 工作 组 间 不 能 执行 
这 样 的 操作 。 在 单个 核实 例 中 ， 工 作 组 的 运 
行 顺序 是 没有 限制 的 ， 因 此 工作 组 间 没 有 定 
义 同步 结构 。 这 个 限制 对 数据 共享 有 重要 影 
啊 ， 这 将 在 内 存 层 次 模型 中 进行 讨论 。 

对 于 习惯 多 线程 编程 (如 pthreads Java 
线程 等 ) 灵活 性 的 程序 员 来 说 ， 这 些 同步 


ocl_get_global_ID(0) = 16 


| 
(QA 96569 eooo 90906 6999 
一 C808 96060 9909 9659 
H 9999 9999 9990 9999 
pas ecoo vooo C808 999€ 
= eeee 99060 099060 eee 
S| eee cies bees eee 
5 ©8080 22000 S808 2686 
9 eecee 960909 e208 8606 
| Eb ates tere n 
z otee 69609 ccoa e008 
2| IHE TH 2322 £585 Tc got loa 00) = 
BY S853 8888 sess ses 
= |< 一 >| 
ocl get local ID(O) = 4 
22-3 ”问题 被 拆 解 为 N(N = 1,2, 3) 维 索引 空间 


上 的 点 ， 在 OpenCL 中 称 为 NDRange。 在 
NDRange 中 每 个 点 上 运行 的 核实 例 称 为 工 
作 项 。 这 些 工作 项 分 成 工作 组 ， 从 而 均匀 
地 把 整个 索引 空间 分 块 


限制 可 能 看 起 来 比较 及 烦 。 然 而 ，OpenCL 执行 模型 定义 这 些 限 制 是 有 原因 的 。OpenCL 通 
常用 来 对 高 度数 据 并 行 的 算法 进行 高 吞吐 量 计算 ， 并 通过 创建 由 准备 执行 的 工作 组 组 成 的 大 
型 内 部 工作 池 实 现 高 性 能 。 为 保证 设备 的 每 个 CU 被 任务 完全 占用 ， 调度 器 以 流水 线 的 方式 
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调度 这 些 可 运行 的 工作 组 。 

因为 计算 设备 (如 GPU 和 FPGA) 可 能 会 有 独立 的 板 上 内 存 ， 所 以 异 构 计算 平台 不 可 
能 提供 一 个 内 存 一 致 性 的 内 存 空间 。 因 此 ，OpenCL 中 的 内 存 模 型 ， 根 据 平 台 模 型 定义 了 将 
OpenCL 内 存 分 解 到 不 同 地 址 空间 中 的 方式 ， 如 图 22-4 所 示 。 





主机 


图 22-4 OpenCl 1.X 的 内 存 模型 以 及 与 平台 模型 的 对 应 关系 。 在 一 个 上 下 文中 有 
P 个 设备 ,它们 对 全 局 /常量 内 存 来 说 都 是 可 见 的 


从 图 22-4 的 底部 开始 ， 首 先是 主机 内 存 ， 顾 名 思 义 ， 主 机 内 存 由 主机 定义 或 仅 对 主机 可 见 
(尽管 OpenCL 2.0 已 经 取消 了 这 个 限制 )。 内 存 层 次 架构 的 下 一 层 为 全 局 内 存 (global memory), 
其 中 包含 一 块 只 读 内 存 ， 称 为 常量 内 存 (constant memory)。 全 局 内 存 和 常量 内 存 存储 OpenCL 
内 存 对 象 ， 并 且 对 于 计算 ( 即 ， 程 序 员 定 义 的 上 下 文 ) 中 涉及 的 所 有 OpenCL 设备 可 见 。 独 立 
GPU 或 者 FPGA 板 上 的 DRAM 通常 会 映射 为 全 局 内 存 。 这 里 值得 注意 的 是 ， 对 于 独立 设备 ， 
在 主机 内 存 和 全 局 内 存 之 间 移 动 数据 需要 路 总 线 (如 PCI-E) 传递 数据 ， 这 可 能 相对 较 慢 。 

在 OpenCL 内 部 ， 每 个 CU 都 有 一 块 称 为 本 地 内 存 (local memory) 的 本 地 内 存 区 域 。 
本 地 内 存 仅 对 CU 内 部 的 PE 可见， 这 可 非常 好 地 映射 到 OpenCL 的 执行 模型 上 : 一 个 或 者 
多 个 工作 组 运行 在 一 个 CU 上 ， 一 个 或 者 多 个 工作 项 运行 在 一 个 PE 上 。 本 地 内 存 上 的 数据 
可 属于 一 个 工作 组 内 的 所 有 工作 项 共享 。OpenCL 存储 层次 架构 的 最 后 一 部 分 是 私有 内 存 
(private memory)， 它 仅 对 工作 项 中 少量 的 内 存 可 见 。 

在 OpenCL 中 ,不 同 存储 层次 上 的 数据 传输 都 是 显 式 的 。 也 就 是 说 ， 用 户 负责 主机 内 存 
到 全 局 内 存 的 数据 传输 ， 其 他 的 也 是 如 此 。 程 序 员 必须 使 用 OpenCL API 定义 的 命令 以 及 内 
核 编程 语言 来 进行 主机 内 存 到 全 局 内 存 、 全 局 内 存 到 本 地 或 者 私有 内 存 的 数据 传输 。 


22.3 OpenCL 示例 : EER 
我 们 需要 借助 一 个 更 加 复杂 的 例子 来 了 解 这 些 地 址 空间 ， 如 图 22-5a 描述 的 矩阵 乘 核 。 
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虽然 这 个 程序 初 看 起 来 很 复杂 ， 但 是 基本 原理 非常 简单 。 我 们 使 用 一 个 众所周知 的 方法 对 每 
个 循环 〈 共 三 个 ) 进行 重 构 ， 将 它们 转化 为 循环 对 。 即 第 一 个 循环 基于 块 ， 第 二 个 循环 基于 
每 个 块 内 的 元 素 。 这 个 方法 可 以 让 我 们 通过 选择 块 的 大 小 ， 将 计算 需要 的 工作 空间 加 载 到 性 
能 更 快 的 内 存 〈《 即 本 地 内 存 或 和 有 内 存 )， 从 而 有 效 提 升 程序 性 能 。 

为 了 实现 这 个 方法 ， 每 个 工作 项 的 任务 由 计算 向 量 点 积 转变 为 计算 “矩阵 点 积 ”。"“ 甜 
阵 点 积 ” 的 操作 数 分 别 为 矩阵 4 的 行 块 和 和 矩阵 B 的 列 块 。 图 22-5b 给 出 了 该 算法 的 图 形 化 
视图 。 这 个 算法 的 每 一 步 都 是 一 个 串 行 矩 阵 乘 (应 该 是 “矩阵 点 积 ” 一 一 译 肴 注 ) 操作 ， 这 
就 可 以 对 每 次 数据 传输 执行 更 多 的 计算 任务 ， 从 而 分 挫 全 局 内 存 到 片上 内 存 (这 里 的 片上 内 
存 指 本 地 内 存 或 私有 内 存 ) 的 数据 传输 开销 。 


#define blksz 16 // upper-left-corner and inc for A and B 
. kernel void mmul( int Abase - Iblk*N*blksz; 
const unsigned int N, int Ainc = blksz; 
. global float* A, int Bbase = Jblk*blksz; 
. global float* B, int Binc = blksz*N; 
. global float* C, 
. local float* Awrk, // C(Iblk,Jblk) = sum over Kblk of 
. local float* Bwrk) / / A(Iblk,Kblk)*B(Kblk,Jblk) 
( for (Kblk = 0; Kblk«Num BLK; Kblk++) 
int kloc, Kblk; { 
float Ctmp-0.0f; //Load (Iblk,Kblk) and B(Kblk,Jblk). 
//Each work-item loads single 
// compute element C(i,j) //elements of the two shared blocks 
int i - get global id(0); Awrk[jloc*blksz+iloc] = 
int j = get global id(1); A[Abase+jloc*N+iloc]; 
Bwrk[jloc*blksz+iloc] = 
B[Bbase+jloc*N+iloc]; 


// element C(i,j) is in 
// block C(Iblk,Jblk) barrier (CLK LOCAL MEM FENCE); 
int Iblk = get group id(0); 


int Jblk = get group id(1); *pragma unroll 


for (kloc=0; kloc<blksz; kloc++) 
Ctmp += Awrk[jloc*blksz+kloc] 


* Bwrk[kloc*blksz+iloc] ; 
barrier (CLK LOCAL MEM FENCE); 


// C(i,j) is element 

// C(iloc, jloc) inside 

// the block 

int iloc = get local id(0); 


Abase += Ainc; Bbase += Binc; 
} 


int jloc = get local id(1); 
C[3*N4*1] = Ctmp: 


int Num_BLK = N/blksz; 


a) 
图 22-5 a) 基于 块 的 矩阵 乘 核 。 这 个 算法 在 工作 组 内 计算 矩阵 A RAE B 列 块 的 “点 积 ”。 因 为 
这 些 行 块 和 列 块 都 加 载 进 了 能 够 被 工作 组 内 所 有 工作 项 共享 的 本 地 内 存 中 ， 所 以 只 需要 一 次 
从 全 局 内 存 的 数据 传输 。b) 基于 块 的 矩阵 乘 算法 的 图 形 表示 : 使 用 矩阵 4 的 行 块 和 和 矩阵 B 
的 列 块 计算 矩阵 C 的 一 块 数据 。 每 个 工作 组 映射 的 全 局 内 存 对 象 的 地 址 为 ， 每 个 工作 组 负责 
处 理 的 矩阵 4 和 和 矩阵 B 数 据 的 基 址 ( Abase 和 Bbase) 加 上 对 应 矩阵 子 块 的 地 址 增 量 ( Ainc 
和 Binc)。 这 里 为 使 用 图 22-3 定义 的 16*16 索引 空间 的 计算 方式 
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Cllblk,Jblk) C(Iblk,JbIk) fTXRA(IbIK,:) 列 块 B(:,Jblk) 


| 


N= 16, Blksz = 4 矩阵 A、B、C 以 行 优先 格式 映射 到 索引 空间 ， 考 虑 块 C 
索引 的 计算 ( IbIk-2, Jblk=1) 


| Bbase = : Jblk*blksz = 1*4 | 











计算 和 矩阵 B 子 块 地 址 : 
( Binc = blksz*N 
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b) 
图 22-5 (42) 


现在 让 我 们 更 加 详细 地 了 解 这 个 核 。 首 先 ， 核 顶部 定义 了 块 的 大 小 ， 从 而 定义 了 矩阵 
A, WE B AHERE C 的 分 块 大 小 (blksz)。 选 择 合适 的 块 大 小 ， 从 而 使 年 阵 分 块 能 够 装载 进 
片上 内 存 (如 ， 本 地 内 存 ) 中 。 然 后 ， 开 始 定义 核 本 身 : 将 函数 标记 为 核 ， 从 而 使 系统 知道 
该 函数 将 要 运行 在 上 下 文 定义 的 多 个 类 型 的 设备 上 。 同 时 ， 核 的 参数 根据 它们 所 处 的 地 址 空 
间 进 行 标记 。 人 例如， 原始 矩阵 位 于 全 局 内 存 上 ， 所 以 用 “__global” 来 标记 。 除 此 之 外 ， 两 
个 参数 标记 为 ”_local”， 以 说 明 这 两 个 参数 位 于 本 地 内 存 上 ， 所 以 这 部 分 数据 将 会 被 工作 
组 内 的 所 有 工作 项 共享 。 

记 住 ， 每 个 工作 项 将 会 执行 相同 核 。 这 是 SPMD 模式 的 一 个 例子 。 每 个 工作 项 都 有 一 
个 唯一 全 局 ID 和 一 个 本 地 ID (工作 组 内 唯一 )， 工 作 项 将 根据 这 些 ID 进行 计算 。 在 核 的 
开始 会 发 现 确定 工作 项 全 局 ID 和 本 地 ID 的 代码 : 首先 调用 get global ID() 函数 确定 工作 
项 在 整个 索引 空间 的 坐标 。 这 个 坐标 将 定义 了 每 个 工作 项 所 要 负责 计算 的 目标 和 矩阵 元 素 ; 
然后 调用 get local id() PAX, WHE CVE IE EAA Yb te. FA 22-3 说 明了 全 局 空间 为 
(16,16) 且 本 地 空间 为 《4,4 ) 的 一 个 例子 ， 每 个 工作 项 都 会 有 一 个 从 (0,0) 到 (15$,15 ) 的 
全 局 ID 和 一 个 从 (0,0) # (3,3) 的 本 地 ID. 

Subsequent A blocksby shifting index by 计算 和 矩阵 A 子 块 地 址 增 量 : 

在 图 22-5a 中 第 二 列 代码 的 顶部 ， 分别 计算 矩阵 子 块 在 全 局 内 存 中 的 地 址 偏 移 量 和 地 址 
增 量 。 图 22-5b 展示 了 一 个 计算 例子 (使 用 图 22-3 定义 的 16 x 16 索引 空间 )。 

负责 核 主要 计算 部 分 的 主 循环 也 遵循 上 述 索 引 计算 。 主 循环 (基于 Kblk) 负责 处 理 和 矩阵 A 
的 行 块 和 和 矩阵 B 的 列 块 。 在 循环 开始 ， 每 个 工作 项 并 行将 数据 从 全 局 内 存 加 载 到 本 地 内 存 上 
循环 随后 的 代码 将 会 对 这 些 数据 进行 计算 ， 所 以 程序 员 必 须 在 数据 加 载 后 面 添 加 栅栏 进行 同步 。 
该 栅栏 使 用 一 个 本 地 内 存 fense 确保 栅栏 操作 之 后 ， 工 作 组 内 的 所 有 工作 项 都 有 一 致 的 内 存 视 
图 。 如 果 没 有 栅栏 ， 在 其 他 工作 项 没有 完成 数据 加 载 之 前 ， 可 能 会 有 工作 项 从 本 地 内 存 中 读 取 
数据 。 注 意 ， 栅 栏 只 对 同属 于 一 个 工作 组 的 工作 项 进行 同步 操作 ， 不 同 工 作 组 间 可 以 异步 执行 。 

当 数 据 加 载 完 成 之 后 ， 基 于 块 本 地 索引 (kloc) 的 循环 进行 相关 数据 计算 。 这 个 循环 之 
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后 还 有 一 个 栅栏 。 这 个 栅栏 非常 重要 ， 因 为 它 确保 了 只 有 同属 于 一 个 工作 组 的 所 有 工作 项 都 
完成 这 个 循环 后 ， 才 能 继续 下 次 循环 迭代 的 处 理 。 这 是 很 关键 的 ， 因 为 在 所 有 工作 项 (属于 
同一 个 工作 组 ) 都 完成 本 地 和 迭代 的 计算 前 ,我们 不 想 有 任何 一 个 工作 项 继续 执行 基于 Kblk 
循环 的 下 次 迭代 并 进行 数据 加 载 工作 。 


22.4 OpenCL E Intel Xeon Phi 协 处 理 器 


OpenCL 程序 员 通 过 了 解 平 台 模 型 映射 到 特定 系统 上 的 方式 来 推导 性 能 。 例 如 ， 数 据 
并 行 循环 是 如 何 转化 为 核 并 映射 到 设备 上 的 ， 数 据 如 何在 内 存 层次 架构 上 进行 传输 。 考 虑 
图 22-1 介绍 的 平台 模型 。SPMD 架构 (如 GPU) 上 ， 比 多 指令 多 数据 Multiple Instruction 
Multiple Data, MIMD) 架构 (如 Intel Xeon 处 理 硕 和 Intel Xeon Phi HAIER) 在 硬件 上 有 
更 多 的 限制 。 作 为 一 个 开放 标准 ，OpenCL 的 目标 是 在 SPMD 和 MIMD 2844 $f 22 FPGA 和 
DSP 等 差别 更 大 的 架构 上 都 能 进行 高 效 的 并 行 编 程 。 

OpenCL 在 CPU 平台 或 者 在 众 核 平台 (如 Intel Xeon Phi AAK) 上 将 产生 有 趣 的 情况 。 
这 两 个 平台 比 GPU HAREA SE Ber AXE AR AR PESR. KF OpenCL 映射 到 这 些 系统 上 有 很 多 方 
式 。 并 且 映 射 方式 是 可 以 改变 的 ， 因 为 这 种 选择 在 硬件 而 不 是 在 软件 。 

目前 ，OpenCL 平台 模型 通过 如 下 方式 映射 到 Intel Xeon Phi 协 处 理 吕 上: CU 映射 到 内 
核 上 的 硬件 线程 ， 处 理 占 上 的 内 核 共享 问 量 单 苑 ; PE 映射 到 向 量 单元 中 的 通道 (lane), Al 
此 OpenCL PE 的 数量 依赖 于 计算 中 使 用 的 数据 类 型 。 对 于 单 精 度 的 矩阵 乘 核 ，32 位 的 浮 点 
数据 类 型 使 每 个 向 量 单元 支持 16 个 PE (Intel Xeon Phi 的 向 量 长 度 为 512。 译 者 注 )。 

为 了 在 Intel Xeon Phi 协 处 理 从 上 实现 高 性 能 ， 核 执行 时 ， 所 有 PE 必须 执行 一 组 一 致 的 工 
作 项 控制 流 (一 个 工作 项 运行 在 向 量 单元 的 一 个 通道 上 )。 虽 然 Intel Xeon Phi 向 量 单元 支持 条 
件 指令 或 者 工作 组 大 小 不 是 向 量 单元 通道 数 整 数 倍 的 情况 ， 但 这 样 会 导致 一 部 分 SIMD 通道 空 
内 和 低 性 能 。 除 此 之 外 ， 为 了 实现 最 佳 性 能 ， 工 作 组 的 数目 最 好 是 硬件 线程 (CU) 的 整数 倍 。 

考虑 一 个 60 核 的 Intel Xeon Phi 协 处 理 硕 。 每 核 有 4 条 硬件 线程 和 一 个 512 (ÉS p 
元 (16 个 单 精度 浮 点 数 的 宽度 )。 当 全 力 运 行 OpenCL 时 ， 需 要 开启 60*4*16=3840 个 工作 
项 。 因 为 每 个 工作 组 运行 在 一 个 核 上 ， 所 以 工作 组 的 大 小 应 该 是 16( 回 量 单元 宽度 / PE 
据 类 型 大 小 ) 或 者 4*16【( 人 硬件 线程 数目 乘 以 同 量 单元 中 的 通道 数 )。 

目前 ， 对 于 OpenCL 在 Intel Xeon Phi 协 处 理 上 的 实现 ， 主 机 程序 运行 在 CPU E, 
OpenCL 核 运 行 在 协 处 理 器 上 上。 因此， 初始 数据 存储 在 CPU 的 DRAM 上 ， 并 且 需 要 将 数 
据 传 输 到 协 处 理 硕 的 内 存 上 。 当 程序 开始 运行 时 ， 针 对 Intel Xeon Phi Db BE at AY OpenCL 
SDK ( Software Development Kit) 定义 了 分 配 在 协 处 理 器 上 的 一 个 内 存 工 作 池 。 对 于 和 矩阵 乘 
TK, 我 们 发 现 确保 这 个 工作 池 是 以 容纳 计算 所 需 和 矩阵 是 非常 重要 的 。 如 果 这 个 工作 池 过 小 ， 
系统 将 会 在 运行 时 对 工作 池 进 行动 态 增加 ， 因 此 增加 了 从 主机 到 协 处 理 内 存 的 数据 传输 开 
销 。 工 作 池 的 大 小 可 以 通过 设置 合适 的 环境 变量 来 调整 : 


CL CONFIG MIC DEVICE 2MB POOL INIT SIZE MB 
本 章 最 后 给 出 了 针对 Intel Xeon Phi 协 处 理 需 OpenCL SDK 详细 信息 的 链接 。 
22.5 ”性 能 评估 


图 22-6 显示 了 甜 阵 乘 的 性 能 结果 。 我 们 分 别 在 三 个 不 同 平台 上 进行 了 性 能 测试 ; 一 个 笔 
记 本 级 别 的 CPU (双核 Intel Core I5 XbF 4 @ 2.5 GHz), 一 个 GPU (Intel HD graphics 5200 
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GPU), 一 个 Intel Xeon Phi HALHA. KBE BME, 我们 的 目标 不 是 比较 这 三 个 不 同 
类 型 处 理 器 的 性 能 ， 而 是 说 明 OpenCL 在 不 同 架构 处 理 器 上 的 可 移植 性 。 和 矩阵 规模 设置 为 
1000*1000。 在 进行 性 能 分 析 、 暴 露 系统 管理 内 存 移动 方式 (相对 于 计算 ) 的 缺点 时 ， 这 个 和 矩 
阵 规模 是 比较 小 的 。 当 和 矩阵 乘 程 序 的 串 行 版 本 使 用 “ -03” 编 译 选 项 时 ， 在 一 个 笔记 本 电脑 
级 别 的 CPU 内 核 上 可 达到 200MFLOPS 的 性 能 。 使 用 “ -03” 编 译 选项 ， 编 译 咒 将 自动 进行 
向 量化 优化 。 在 同一 个 CPU 上 运行 矩阵 乘 算法 的 OpenCL 初级 实现 版 本 (WLP 22-2b)， 可 实 
现 800MFLOPS 的 性 能 ， 此 时 OpenCL 代码 将 使 用 CPU 的 两 个 内 核 。 相 同 的 OpenCL 程序 
在 Intel Xeon Phi 协 处 理 器 上 可 实现 13.6GFIOPS 的 性 能 。 基 于 块 的 矩阵 乘 算法 ( 见 图 22-5a) 
实现 了 性 能 的 大 幅 提 升 。 我 们 将 块 的 大 小 设置 为 16， 仅仅 将 程序 重新 编译 一 下 ， 就 在 CPU, 
GPU 和 协 处 理 器 三 个 计算 平台 上 分 别 实现 了 12GFLOPS、38GFLOPS 和 74GFLOPS 的 性 能 。 
同 目前 手工 优化 实现 的 数学 库 提 供 的 性 能 数据 不 同 ， 该 程序 没有 使 用 任何 汇编 代码 。 


串 行 C 程 序 0.2 
( 代码 来 自 图 1-2A ) 


OpenCL: 每 个 C (i, j) 开启 13.6 


( 代码 来 自 图 1-2B ) 


基于 块 的 并 行 算法 ( blksz-16 ) 12 38 (53) 74 (126) 
( 代码 来 自 图 1-5A ) 


图 22-6 ”和 矩阵 规模 为 1000*1000 时 和 矩阵 乘 算法 的 性 能 ， 性 能 单位 为 GFLOPS。1 ) 处 理 器 : Intel 
Core i5-2520M CPU @ 2.5 GHz (双核 ) Windows 7 64 位 OS, Intel 64 位 编译 器 v13.1.1.171, 
OpenCLSDK 2013; 2) GPU: Intel Core i7-4850HQ (2) 2.3 GHz, #4 Intel HD Graphics 5200 w/ 
Fi 3E ff, ICC 2013 spl update 2; 3) pAb HERE: Intel Xeon Phi SEIOP, CL_ 
CONFIG MIC DEVICE 2MB POOL INIT SIZE MB = 4 MB, GPU 和 协 处 理 器 的 
第 二 个 性 能 数据 是 将 程序 连续 运行 多 次 时 第 二 次 的 性 能 数据 。 注 意 ， 相 对 于 表 中 的 数 
据 ， 我 们 观察 到 的 性 能 误差 要 小 得 多 ， 只 不 过 在 表 中 没有 显示 


当 使 用 GPU 和 Intel Xeon Phi 处 理 嚣 时， 数据 传输 开销 非常 明显 。 当 我 们 测试 答 阵 乘 
算法 的 运行 时 间 时 ， 包含 了 将 数据 从 主机 内 存 传输 到 全 局 内 存 的 开销 。 这 就 意味 者 我 们 包含 
了 通过 PCIe 总 线 进 行 数据 传输 的 开销 。 为 了 得 到 这 些 数 字 ， 运 行 了 两 次 ， 只 给 出 了 第 二 次 
的 速度 。 图 22-6 所 示 括 号 中 的 性 能 数据 是 将 和 矩阵 乘 程序 连续 运行 两 次 时 第 二 次 的 运行 时 间 。 
换 一 句 话说， 第 二 次 计算 可 以 利用 第 一 次 计算 用 到 的 数据 ， 即 没有 通过 PCIe 总 线 进行 数据 
传输 的 时 间 开 销 。 性 能 数据 差异 一 点 也 不 奇怪 ， 因 为 当 将 Intel Xeon Phi 处 理 需 定位 为 协 处 
理 器 时 ， 就 要 通过 PCIe 总 线 进行 数据 传输 ， 这 对 性 能 有 非常 大 的 影响 。 下 一 代 Intel Xeon 
Phi 产品 Knights Landing 将 能 够 作为 系统 中 的 处 理 需 或 者 计算 节点 进行 操作 ， 这 将 消除 协 处 
FE as BY TE Hei TT H o 

从 具体 示例 中 可 以 发 现 ，OpenCL 核 本 身 比 较 简 单 。OpenCL 的 大 部 分 复杂 性 来 自 于 本 
章 没 有 给 出 的 主机 程序 。 运 行 在 主机 端的 程序 选择 用 于 计算 的 设备 ， 管 理 全 局 内 存 ， 并 通过 
命令 队列 调度 核 的 执行 。 一 个 传统 的 主机 程序 主要 执行 如 下 步骤 : 

e 定义 平台 , 平台 = 设备 + 上 下 文 + 命 令 队 列 ; 

e 创建 并 编译 程序 ( 核 函 数 的 动态 库 ); 

e 创建 内 存 对 象 ; 
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e 定义 核 CR EXER EAR); 

e 提交 命令 : 传递 内 存 对 象 ， 执 行 核 。 

虽然 主机 程序 并 不 难 写 ， 也 不 难 理解 ， 但 是 很 麻烦 。 本 章 将 不 继续 讨论 主机 程序 。 关 于 
OpenCL API 以 及 如 何 使 用 它们 编写 主机 函数 ， 本 章 最 后 将 给 出 对 应 参考 文献 。 


22.6 ”案例 研究 : 分 子 对 接 算法 


本 节 给 出 一 个 关于 BUDE (Bristol University Docking Engine， 英 国 布 里 斯 托 尔 大 学 的 对 
接 引 警 ) 的 案例 研究 ， 说 明 在 实际 应 用 场景 中 使 用 OpenCL 开发 性 能 可 移植 应 用 程序 的 有 效 
PE, BUDE 是 一 段 基 于 分 子 动力 学 的 代码 。Richard 博士 和 来 自 英 国 布 里 斯 托 尔 大 学 的 研究 团 
队 已 经 开发 BUDE 很 多 年 。BUDE 采用 了 一 个 新 颖 的 基于 原子 — 原子 的 目 由 能 力 力 场 来 精确 
预测 两 个 原子 相互 作用 产生 的 相对 约束 自由 力 。 这 个 能 力 意味 着 BUDE 能 够 用 来 解决 三 个 
不 同 问题 : 1) 虚拟 筛选 ， 通过 将 数 百 万 个 小 原子 和 目标 蛋白质 对 接 完 成 第 选 (JILE 22-7 ) ; 
2) 结合 位 点 检测 ， 通 过 使 用 配 体检 测 蛋 白质 表面 ， 完 成 结合 位 点 的 检测 CULES 22-8); 3) & 
白质 与 蛋白 质 对 接 ， 通 过 系统 扫描 两 个 恒 日 质 的 表面 ， 完 成 对 接 〈 见 图 22-9 )。 


推测 的 
成 功 相互 作用 





酶 : 药物 目标 
图 22-7 BUDE 通过 对 接 潜在 的 药物 分 子 ( 配 体 ) 和 目标 〈 和 蛋白 质 ) 实现 虚拟 筛选 


为 了 在 CPU, GPU 和 加 速 器 等 不 同 架 
构 的 硬件 平台 上 实现 性 能 可 移植 ，BUDE 已 
经 开发 了 OpenCL kA. HAT, BUDE 
经 完成 了 OpenCL 移植 。 这 就 意味 着 只 需 
要 开发 和 维护 一 份 源 代码 ， 就 可 以 在 CPU, 
GPU, Intel Xeon Phi 协 人 处理 器 等 其 他 计算 


as .., 图 22-8 BUDE 通过 使 用 目标 配 体 ( 左 图 ) 扫描 目 
民 好 的 将 据 并 行 性 征 BUDE — “SE H 标 蛋 白质 表面 完成 结合 位 点 检测 。 确 定 的 
间 的 测试 ， 并 且 它 们 之 间 的 运算 都 是 相互 独 
立 的 。 同 时 ，BUDE 属于 计算 密集 型 而 不 是 访 存 密集 型 算法 。 这 些 特征 使 得 BUDE 算法 在 
高 度 并 行 架 构 上 的 优化 非常 简单 。 每 次 分 子 与 分 子 间 的 测试 都 会 有 一 个 涉及 分 子 位 置 和 方 回 
的 独特 配置 。 在 BUDE 术语 中 ， 这 个 配置 称 为 pose。 
BUDE 在 OpenCL 移植 中 采用 的 优化 方法 体 循 如 下 性 能 可 移植 法 则 。 
1. 最 大 限度 开发 并 行 性 。OpenCL 程序 开发 的 主要 目标 就 是 尽 可 能 开发 算法 并 行 性 ， 并 
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尽量 减少 相互 依赖 (控制 和 数据 )。 对 于 BUDE 算法 ， 这 意味 着 需要 在 较 粗 的 粒度 上 开发 并 
行 性 ， 将 不 同 的 pose 分 配给 不 同 的 OpenCL 工作 项 进行 
并 行 计 算 。 这 里 有 比 包 含 在 每 个 分 子 中 的 原子 数目 还 多 的 
pose， 因 此 ,pose 级 并 行 可 以 提供 应 用 程序 中 的 高 并 行 性 。 
2. 使 用 众所周知 的 优化 方法 。 一旦 应 用 程序 的 并 行 
性 得 到 了 充分 开发 并 表现 在 OpenCL 程序 中 ， 下 一 步 的 
主要 工作 就 是 使 用 标准 源 代码 优 化 方法 来 提升 应 用 程 厅 
在 众 核 处 理 器 (如 Intel Xeon Phi 协 处 理 器 和 GPU) 上 的 
性 能 。 这 些 优化 方法 在 相关 文献 中 都 有 很 好 的 解释 ， 例 
如 : 为 设备 内 存 系统 确保 良好 的 访 存 模式 (如 合并 访 存 ); 
尽 可 能 消除 控制 分 文 ; 确保 提供 可 被 编译 此 使 用 的 指针 | 
的 所 有 相关 信息 (如 使 用 const 和 restrict 等 关键 字 )o 受 体 配 体 C 
3. 跨 多 个 设备 测试 。 在 开发 过 程 中 ， 代 码 会 在 多 个 
设备 上 进行 反复 测试 ， 这 些 设备 至 少 包 括 : 一 个 多 核 多 
CPU 系统、 一 个 Intel Xeon Phi 系统 和 一 个 GPU 系统 。 保 ”图 22-9 BUDE 通过 系统 地 扫描 两 





留 能 够 在 所 有 计算 平台 上 提升 性 能 的 优化 方法 。 研 究 在 任 le 完成 蛋 
意 一 个 设备 上 造成 明显 性 能 降低 的 优化 方法 。 如 果 是 因为 白质 与 蛋白 质 的 对 接 


设备 相关 原因 导致 性 能 下 降 ， 该 优化 方法 将 弃 用 ; 如 果 性 能 下 降 是 由 于 特定 设备 或 者 编译 一 
的 bug， 我 们 将 同 相 关 厂 商 一 起 解决 这 个 问题 。 当 这 个 问题 解决 后 ， 优 化 方法 就 会 集成 到 代码 
中 。 值 得 注意 的 是 ， 在 目标 设备 上 几乎 所 有 优化 方法 都 提升 了 应 用 程序 的 性 能 ， 而 只 有 一 小 
部 分 优化 方法 虽然 在 一 个 设备 上 提升 了 性 能 ， 但 在 其 他 设备 上 会 导致 性 能 的 明显 下 降 。 

4. 使 用 最 极限 设备 驱动 开发 。 在 优化 过 程 中 ,我 们 通常 会 将 精力 集中 在 列表 中 的 绝 大 
多 数 并 行 设备 上 ， 如 Intel Xeon Phi 协 处 理 器 或 者 高 端 GPU。 因 为 这 些 设备 需要 最 有 效 的 
并 行 代码 设计 。 同 时 ， 我们 发 现 当 主要 精力 集中 在 这 些 设备 上 时 ， 相 同 代码 在 次 并 行 ( Less 
parrallel) 设备 (如 多 核 CPU) 上 的 性 能 也 得 到 了 提升 。 

5. 避免 与 平台 相关 的 优化 方法 。 许 多 潜在 的 优化 方法 需要 利用 硬件 的 相关 特性 ， 如 内 
存 层次 架构 中 每 层 的 内 存 大 小 (在 OpenCL 术语 中 ， 如 私有 内 存 、 本 地 内 存 、 全 局 内 存 和 主 
机 内 存 )， 工 作 项 分 组 执行 的 大 小 (例如 ，AMD 的 wavefront 包含 64 个 工作 项 ，NVIDIA 的 
warp 包含 32 个 工作 项 一 一 译 者 注 )。 通 常情 况 下 ， 这 些 优化 方法 在 特定 计算 平台 上 只 能 获 
得 有 限 的 性 能 提升 ， 但 在 其 他 所 有 计算 平台 上 都 会 导致 性 能 下 降 。 对 于 BUDE 算法 ， 我 们 
避免 使 用 所 有 这 些 与 设备 相关 的 优化 方法 ， 而 是 将 精力 集中 在 参数 调整 方面 ， 如 能 够 适用 于 
所 有 设备 的 工作 组 大 小 (例如 ， 当 工作 组 大 小 为 32、64 或 者 128 等 2 BDU, FER 
有 设备 上 的 性 能 经 常 是 最 优 或 者 是 近似 最 优 的 )。 

BUDE 是 非常 复杂 的 科学 程序 ， 进 行 原子 - 原子 操作 的 内 层 循环 大 约 为 50 个 基本 操 
作 。 其 中 20% 为 条 件 分 支 ， 其 他 操作 为 单 精 度 浮 点 指令 (例如 ， 加 、 乘 、 倒 数 和 平方 根 操 
作 )， 或 者 加 载 、 存 储 指令 。 条 件 分 支 是 依赖 数据 的 ， 也 就 是 说 ， 不同 工 作 项 很 有 可 能 会 
行 不 同 的 分 支 。 在 面向 吞吐 量 的 处 理 器 (如 GPU 一 一 译 者 注 ) 上 ， 这 种 程序 特征 会 导致 性 
降低 。 所 以 ， 在 优化 过 程 中 ， 大 量 的 精力 花费 在 使 用 语义 上 等 价 的 线性 断言 代码 (predicated 
code) 代替 依赖 数据 的 条 件 分 支 语 句 。 断 言 执 行 predicated exection) 是 一 种 代 蔡 条 件 分 文 
的 方法 ， 该 方法 执行 一 个 线性 指令 序列 ， 其 计算 结果 根据 条 件 判 断 可 能 会 被 忽略 。 使 用 线性 
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断言 代码 代替 条 件 分 文 语 句 具 有 双重 优势 : 首先 条 件 分 支 越 少 意味 着 在 众 核 架构 上 的 执行 流 
水 线 就 越 简单 ， 线 程 被 挂 起 的 次 数 就 越 少 ; 其 次 ， 减 少 条 件 分 支 可 缩短 关键 路 径 的 长 度 。 在 
NVIDIA GTX 680 GPU 上 ,该 优化 方法 取得 了 54.1% 的 性 能 提升 。 我 们 本 可 以 消除 最 内 层 
循环 中 的 所 有 条 件 分 支 ， 并 用 线性 、 断 言 代码 代 苦 。 这 在 所 有 的 测试 平台 (包括 Intel Xeon 
Phi 协 处 理 器 、Intel Xeon 处 理 器 、NVIDIA GPU fil AMD GPU) 上 都 会 取得 明显 的 性 能 提 
升 。 除 此 之 外 ， 还 有 一 个 经 常会 使 用 的 优化 方法 : 将 OpenCL 核 程 序 修 改 为 对 编译 器 友好 的 
代码 。 这 可 以 让 编译 器 生成 断言 代码 而 不 是 显 式 的 条 件 分 支 。 图 22-10 和 图 22-11 显示 了 代 
码 修改 前 后 的 不 同 。 


l1f (a > kh) 
( 


accumulator += (a - b*c); 


) 


setp.gt.f32 tpred, ta, %b 
@!%pred bra Sendif 

mul.£32 tO, tb, $c 

sub. £32 $tl, $a, %t0 


add. £32 $accumulator, taccumulator, %tl 





Sendif: 


[22-10 在 生成 线性 代码 时 ， 在 修改 为 对 编译 器 友好 的 代码 之 前 ，BUDE 中 的 典型 代 
码 段 。 编 译 器 生成 的 汇编 指令 包含 一 个 依赖 数据 的 条 件 分 支 (“bra” 指 令 ) 


temp = (a - b*c); 
mask = {a >b?1 +: 0); 


accumulator += (mask * temp); 


mul .£32 $t0, tb, $c 

sub. £32 temp, ta, %t0 
setp.gt.f32 tpred, $a, %b 

selp.f32 mask, tone, zero, %*pred 





mad. £32 $accumulator, mask, ttemp, $accumulator 


图 22-11 将 图 22-10 中 的 代码 转变 为 语义 相同 但 对 编译 器 友好 的 代码 。 编 译 器 生成 
的 汇编 指令 为 线性 断言 代码 。 这 在 绝 大 多 数 架 构 上 会 取得 更 佳 性 能 


22.7 性 能 评估 : 性 能 可 移植 性 


BUDE 是 计算 密集 型 程序 ， 通 过 使 用 本 章 描述 的 优化 方法 ， 我们 实现 了 一 个 具有 良好 分 
支 特性 (最 大 限度 地 减少 条 件 分 支 ， 当 条 件 分 支 不 可 避免 时 ， 尽 量 减少 不 同 的 分 支 ) 和 良好 
访 存 模 式 的 高 度 并 行 版 本 。 最 终 ，BUDE 在 所 有 的 测试 设备 上 都 实现 了 较 高 的 单 精度 浮 点 数 
性 能 。 

当 在 Intel Xeon Phi 协 处 理 器 和 Intel Xeon CPU 上 运行 相同 的 OpenCL 代码 时 ， 单 精 
度 浮 点 运算 性 能 分 别 达 到 了 681GFLOPS (Intel Xeon Phi SEIOP 协 处 理 器 ，61 核 ，1.1GHz) 
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Ail 346GFLOPS (两 路 Intel E5-2687W 8 EZ CPU, 3.1 GHz， 共 16 核 )。 这 是 整个 BUDE 程 
序 的 运行 性 能 ， 而 不 仅仅 是 一 个 内 层 循环 或 者 内 核 的 性 能 。BUDE 程序 在 两 个 计算 平台 上 
分 别 达 到 了 峰值 浮 点 运算 性 能 的 32% (Intel Xeon Phi SE10P 协 处 理 器 ) 和 44% ( 16 £ Intel 
Xeon 处 理 硕 系统 )。 其 中 ， 计 算 平 台 的 峰值 浮 点 运算 性 能 是 指 浮 点 运算 的 SIMD 性 能 。 从 中 
可 以 看 出 ，Intel 的 OpenCL 实现 在 Intel Xeon Phi 协 处 理 咒 和 Intel Xeon 处 理 器 上 都 可 以 对 
OpenCL 代码 有 效 地 向 量化 。 相 对 于 Intel Xeon 处 理 器 系列 的 高 端 16 核 Sandy Bridge 架构 ， 
BUDE 在 Intel Xeon Phi 协 处 理 硕 上 实现 了 1.94 倍 的 性 能 提升 。 性 能 结果 如 图 22-12 Pra. 
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OpenCL 程序 的 运行 性 能 接近 于 计算 平台 的 峰值 性 能 很 有 意义 ， 并 且 证 明了 OpenCL 在 
不 依赖 过 于 复杂 的 运行 时 代码 生成 或 者 源 代码 自动 调 优 机 制 的 前 提 下 ， 具 有 开发 性 能 可 移植 
的 单 源 应 用 程序 的 潜力 。 

值得 注意 的 是 ， 当 同一 份 BUDE 代码 编译 后 运行 在 不 同 的 众 核 平 台 上 (如 AMD GPU 
Al NVIDIA GPU) 时 ， 也 会 实现 类 似 的 高 性 能 。 图 22-13 显示 了 BUDE 代码 在 不 同 计算 平台 
上 的 性 能 。 
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图 22-13 ”同一 份 源 代码 在 不 同 众 核 和 多 核 设 备 上 的 性 能 。 图 中 性 能 为 整个 程序 的 运行 性 能 
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22.8 ”相关 工作 


OpenCL 和 NVIDIA CUDA 的 核心 思想 是 相同 的 。 它 们 都 适用 于 面 回 吞吐 量 的 数据 并 行 
算法 : 其 基本 结构 是 在 1、2 或 者 3 维 的 索引 空间 ( 核 并 行 设计 模式 的 实例 ) 的 每 个 点 上 都 
运行 一 个 核实 例 。 虽 然 两 个 编程 系统 的 术语 不 同 ， 但 是 理念 相同 。CUDA 和 OpenCL 的 最 大 
区 别 是 : CUDA 只 能 用 于 NVIDIA GPU, mi OpenCL 是 一 个 被 所 有 主流 处 理 器 厂商 支持 的 
可 移植 的 开放 标准 。 | 

XT EOGHETI Ach EE SUI A Fe 2T Bie OF BE OF 8 2L HEU DE DG. EF 1T2E— 
非常 好 的 方法 。 然 而 ， 对 于 许多 应 用 级 程序 员 来 说 ， 这 个 方法 过 于 底层 。OpenMP 体系 结构 
审核 委员 会 已 经 关注 到 了 这 个 问题 ， 并 在 OpenMP 4.0 版 本 中 添加 了 针对 不 同 设备 的 一 组 指 
令 。 这 很 好 地 整合 了 指令 制导 (OpenMP 采用 的 方法 ) 编程 的 简单 性 和 核 并 行 模式 (OpenCL 
采用 的 方法 ) 的 高 效 性 。 

除了 OpenCL 行业 标准 、NVIDIA 的 CUDA 之 外 ,还 有 一 个 同 OpenMP 4.0 类 似 但 针 
对 单一 厂商 产品 的 编程 模型 : OpenACC。OpenACC 是 一 个 针对 异 构 计 算 平 台 、 采 用 指令 
制导 方式 的 编程 模型 。 如 果 程 序 员 想 要 开发 在 多 个 计算 平台 上 可 移植 的 应 用 程序 ， 应 该 选 
f£ OpenCL 而 不 是 CUDA。 同 样 的 道理 ， 从 长 远 看 ，OpenMP 4.0 行业 标准 是 比 NVIDIA 的 
OpenACC 更 好 的 编程 选择 。 
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OpenCL 是 一 个 相对 较 新 的 编程 模型 ， 支 持 程 序 员 针对 异 构 计算 平台 编写 可 移植 和 高 
性 能 的 并 行 应 用 程序 。 虽 然 对 于 使 用 传统 MPI+OpenMP 编程 模型 的 应 用 级 程序 员 来 说 ， 
OpenCL 可 能 太 过 于 底层 。 但 是 ， 当 将 计算 机 作为 一 个 异 构 系 统 并 同时 支持 包括 处 理 器 、 协 
处 理 器 、GPU 和 FPGA 在 内 的 所 有 计算 设备 时 ，OpenCL 是 一 个 非常 好 的 选择 。 正 如 本 章 所 
描述 的 那样 ， 使 用 OpenCL 完全 可 以 写 出 高 性 能 并 且 可 移植 的 应 用 程序 。 
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23.1 引言 


本 章 描 述 了 一 个 应 用 于 3D 有 限 差 分 (3DFD ) 算法 的 特征 提取 和 优化 方法 。3DFD 算法 
常用 于 求解 各 问 同性 声波 方程 (Iso3DFD )， 而 这 种 方程 可 以 不 限制 密度 是 否 为 常数 。 

时 间 域 有 限 差分 是 用 于 仿真 地 震波 传播 的 一 种 常用 技术 ,仿真 地 震波 传播 进一步 用 于 波 
现象 分 析 和 地 震波 获取 设计 。 这 个 方法 在 地 震 成 像 中 通过 反 转 时 间 迁 移 和 全 波形 反 演 而 广泛 
应 用 。 这 个 方法 的 变量 包括 将 波 看 作 声波 或 者 弹性 波 ， 以 及 在 地 表 的 物理 描述 中 加 入 弹性 变 
量 和 各 问 异 性 。 | 

除 此 之 外 ， 被 选 作 近似 偶 导 的 stencil 方法 对 于 性 能 的 实现 来 说 有 着 巨大 的 影响 。 这 些 选 
择 都 会 对 3DFD 算法 的 计算 密度 CAD 有 影响 〈 计 算 密 度 是 指 每 字 节 内 存 传输 而 带 来 的 浮 点 
运算 次 数 )。 使 用 Roofline 模型 方法 时 可 以 很 容易 地 联系 起 AI 和 性 能 期 望 。 这 个 方法 有 助 于 
测量 在 特定 硬件 系统 实现 中 给 定 程序 的 性 能 。Roofline 模型 能 够 通过 源 代码 的 优化 而 设置 期 
望 的 性 能 增益 。 一 旦 程序 达到 Roofline 模型 预测 的 性 能 等 级 ， 就 只 能 通过 算法 改进 提升 性 能 。 

对 于 一 人 台 给 定 的 计算 机 ， 硬 件 规格 决定 了 浮 点 计算 能 力 (FLOPS) 和 从 内 存 中 传递 数 
据 和 向 内 存 传递 数据 的 能 力 (内存 带 宪 )。 我 们 可 以 通过 运行 标准 的 基准 测试 (比如 高 性 能 
LINPACK 和 Stream Triad 基准 测试 ) 来 测定 这 些 能 力 。 

从 最 基础 的 3DFD 实现 开始 ， 我 们 用 一 个 方法 来 评估 这 个 算法 在 算法 和 人 硬件 特征 上 能 够 
达到 的 最 好 性 能 。 

为 了 得 到 接近 于 期 望 值 的 性 能 ， 本 章 描 述 了 从 最 基本 的 版 本 到 使 用 硬件 内 置 男 数 的 实现 
的 一 系列 调试 步骤 。 这 个 调试 方法 包括 可 扩展 并 行 (合作 线程 堵塞 )、 最 大 化 内 存 融 宽 (缓存 
分 块 、 寄 存 硕 重用 ) 和 最 大 化 核 内 性 能 (向量 化、 循环 重建 )。 

我 们 接着 介绍 了 一 种 可 以 求 最 优 参 数 集 的 自动 调试 方法 ， 这 些 参 数 可 能 会 在 程序 构建 和 
运行 时 起 作用 。 选 择 一 组 最 优 的 优化 参数 是 一 项 很 难 的 任务 ， 因 为 复杂 计算 机 系统 中 有 许多 
不 同 的 特征 。 调 试 参数 源 生 目 手 动 调试 方法 、 域 分 解 影响 、 编 译 需 能 力 和 硬件 影响 等 。 这 些 
参数 通常 源 自 在 源 代 码 更 改 〈 比 如 循环 块 的 值 )、 编 译 器 驱动 的 选项 (比如 循环 展开 选项 ) 和 
硬件 特征 ( 比如， 缓存 大 小 )。 

通常 一 个 程序 中 都 有 十 多 个 调试 参数 ， 因 为 参数 数量 太 多 了 ， 所 以 简单 的 试 错 法 根本 没 
法 起 作用 。 目 动 调 优 是 一 种 高 雅 的 方法 ， 它 在 编译 时 和 运行 时 优化 代码 以 进行 目 动 调 优 。 它 
的 主要 想法 是 优化 运行 的 输入 参数 和 编译 需 标 记 ， 而 不 自动 改变 源 代 码 。 我 们 想 要 为 指定 应 
用 找到 一 个 已 经 优化 的 参数 集 ， 而 无 论 源 代码 是 否 经 过 优化 。 

我 们 使 用 遗传 算法 (GA) 寻找 可 用 参数 空间 ， 包 括 缓 存 分 块 的 大 小 、 域 分 解 形状 、 预 
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取 参 数 和 能 量 消 耗 。 从 结果 上 看 ， 上 自动 优化 方法 会 比 传统 的 费力 的 搜索 方法 要 快 得 多 。 

从 一 个 未 优化 的 程序 版 本 到 一 个 高 度 优 化 的 版 本 ， 我 们 在 Intel Xeon E5-2697 v2 Ab 3838 
上 得 到 了 6 倍 的 性 能 提升 ， 在 Intel Xeon Phi 协 处 理 器 上 得 到 近 30 傍 的 性 能 提升 。 除 了 性 能 
提升 之 外 ， 自 动 化 调试 方法 为 任何 输入 工作 负载 选择 一 个 最 优 的 参数 集 。 
23.2 性 能 评估 

Iso3DFD 内 核 可 求解 一 个 各 向 同性 声波 方程 ， 这 个 方程 在 空间 上 有 16 阶 ， 在 时 间 上 有 
2 Wo Iso 3DFD 内 核 的 一 个 标准 实现 通常 只 会 达到 人 硬件 系统 最 高 浮 点 运算 能 力 ( FLOPS) 的 
10%。 本 章 将 介绍 如 何在 处 理 器 和 协 处 理 器 上 得 到 Iso 3DFD 内 核 的 Roofline 模型 。 为 了 计 
算出 在 给 定 平台 上 应 用 可 达到 的 性 能 ， 需 要 如 下 性 能 参数 : 
e 计算 的 理论 峰值 : 对 于 Xeon Phi 7120A 协 处 理 器 ，2420GFLOPS 的 单 精度 运算 速度 
fil 352GB/s 的 传输 速度 ; 对 于 两 个 市 1866MHz DDR3 内 存 的 Intel Xeon E5-2697v2 
处 理 器 ，1036GFLOPS 的 单 精度 运算 速度 和 119GB/s 的 传输 速度 。 
e 使 用 Linpack (或 者 DGEMM) 和 Stream Triad 基准 测试 达到 的 性 能 数值 指定 了 这 个 
平台 性 能 的 上 限 : 对 于 Intel Xeon Phi 7120A 协 处 理 器 ，2178GFLOPS 的 单 精 度 运算 
速度 和 200GB/s 的 传输 速度 ; 对 于 两 个 Intel Xeon E5-2697 v2 处 理 器 ，930GFLOPS 
的 单 精度 运算 速度 和 100GB/s 的 传输 速度 。 
e 应 用 的 Al 是 根据 浮 点 加 法 (ADD) 与 乘法 (MUL) 的 次 数 和 在 内 存 上 数据 迁移 的 字 
节 数 (FA LOAD 和 STORE 操作 数量 定义 ) 计算 出 的 值 。 
最 后 有 一 个 严格 的 假设 : 硬件 有 无 限 带宽 缓存 和 零 访问 延迟 的 大 小 。 这 意味 着 一 个 完美 
的 内 存 子 系统 ， 也 就 是 说 ， 一 旦 数据 载 入 绥 存 中 ， 它 就 会 一 直 驻 留 在 那里 ， 而 不 影响 程序 运 
行 速 度 。 

当然 ， 其 他 因素 可 能 会 影响 到 一 个 使 用 这 类 3DFD 内 核 的 应 用 的 性 能 ， 这 些 因素 包括 : 
边界 条 件 的 选择 、 时 间 逆 转 的 IO 方案 和 并 行程 序 模型 。 对 于 本 章 来 说 ， 我 们 没有 考虑 边界 
条 件 或 者 1O。 男 外 ， 在 使 用 OpenMP API 的 硬件 节点 中 ， 对 于 使 用 MPI 标准 以 及 共享 内 存 
线程 的 分 布 式 内 存 并 行 性 ， 并 行 实现 的 内 核 可 能 会 用 到 异 构 的 并 行 模型 结合 域 分 解 。 在 本 章 
中 ， 我 们 只 考虑 在 一 个 SMP 节点 处 理 一 个 域 的 情况 。 


23.2.1 测试 平台 的 AI 


我 们 的 测试 系统 由 两 个 Intel Xeon E5-2697 v2 (2S-E5) 组 成 ， 其 中 每 个 CPU 中 有 12 
AK, CPU 不 使 用 turbo 模式 ， 两 个 CPU 都 在 2.7GHz 的 频率 下 工作 。 每 个 处 理 器 都 支持 
AVX 扩 展 ， 它 使 用 256 位 的 SIMD 指令 ， 这 个 指令 能 够 在 每 个 CPU 周期 中 处 理 8 个 单 精度 
(32 位) 数字 。 因 此 理论 的 峰值 是 2.7GHz*8(SP FP)*2(ADD/MULL)*12 (内 核 ) *2(CPU)= 
1036.8GFLOPS。 理论 的 内 存 带 宽 是 从 内 存 频 率 ( 1866GHz)、 通 道 数 量 (4 )、 每 个 周期 每 个 
通 直 转移 的 字 节 数 (8 ) 计算 来 的 因此 这 个 系统 有 1866*4*8*2 (处 理 需 数量 ) =119GB/s 的 峰 
(Eats He (对 于 双 捅 权 2S-E5 系统 来 说 )。 

我 们 也 需要 测量 平台 实际 可 以 达到 的 值 ， 以 展示 应 用 的 行为 。 作 为 第 一 个 近似 ， 让 我 们 
考虑 现实 世界 的 应 用 性 能 总 是 由 总 内 存 带宽 (使 用 以 Stream Triad 为 代表 ) 和 总 计算 能 力 或 
者 FLOPS 表征 (以 Linpack 为 代表 )。 两 个 基准 测试 的 选择 提供 了 一 个 非常 严格 的 假设 ， 同 
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时 我 们 可 能 了 解 到 : 即便 使 用 它们 得 到 的 数值 离 参 考 的 理想 点 非常 远 , 但 比 起 人 硬件 理论 的 峰 
值 ， 这 种 峰值 参数 也 更 加 可 信 ， 因 为 它们 执行 指令 流 的 时 候 包 含 了 处 理 设备 上 所 需要 的 最 小 
开销 。 
在 2D-E5 系统 上 ，Linpack 基准 测试 给 出 了 930GFLOPS 的 峰值 参数 ，Stream Triad 给 
出 了 100 GB/s 的 峰值 参数 。 理 论 上 CATS 和 可 达到 峰值 CATS.) 分 别 为 : 
a 10368 | 
AD S = 8.7 Flop / Byte 


930 
Al, =—— = 9.3 Flop/ Byte 
00 pi py 


cpu ] 


使 用 上 述 数字 ， 我 们 能 够 刻画 出 一 个 给 定 内 核 的 情况 : 如 果 内 核 的 AI 大 于 ( 低 于 ) 
9.3Flop/Byte， 我 们 可 以 定义 它 是 计算 限制 (或 者 内 存 限制 ) 的 应 用 。 在 Intel Xeon Phi 
7120A 协 处 理 器 上 ，Linpack 和 Stream Triad 有 2178GFLOPS 和 200GB/s 的 性 能 峰值 ， 而 它 
的 理论 峰值 为 2420GFLOPS 和 352GB/s， 因 此 ，AI 是 

AI". = 2420.5 
" 35 


= oi 
Aly; = "200 — 10.89 Flop / Byte 





— 6.87 Flop / Byte 


23.222 内核 的 Al 


Roofline 模型 也 需要 计算 给 定 应 用 的 Al AI 的 计算 要 么 用 肉眼 观 查 统计 代码 中 有 多少 
次 内 存 访问 和 计算 ， 要么 使 用 特制 的 工具 来 访问 硬件 计数 器 。 在 标准 的 FD 内 核 中 ， 我 们 发 
现 4 次 加 载 (c, prev, next, vel), 1 次 存储 (next), 51 次 加 法 (指数 计算 没有 计 入 )， 以 及 27 
次 乘法 ( 见 图 23-4 )。AI 能 够 使 用 如 下 公式 计算 : 
E S ADD +#MUL 
— (#LOAD + &STORE) x word size 


这 个 应 用 计算 出 AI 是 3.9Flop/Byte， 我 们 再 用 它 乘 以 每 个 平台 的 带宽 可 以 得 到 在 协 处 
理 器 上 第 一 次 估计 的 最 大 可 达到 性 能 为 1372.8GFLOPS 2S- 上 是 464.1GFLOPS。 然 而 ， 
因为 峰值 FLOPS 考虑 了 两 个 并 列 的 管道 (一 个 是 ADD， 男 一 个 是 MUL)， 所 以 一 段 没 有 完 
美 平衡 加 法 和 乘法 的 代码 很 可 能 不 会 达到 这 样 的 峰值 。 因 此 ， dam 达到 的 峰值 应 该 用 如 下 
公式 计算 : 


( 23-1) 


(8 ADD + # MUL) 
2 x max(add, mul) 

这 表示 能 在 16FLOPS/cycle 中 完成 的 总 运算 次 数 与 MUL 和 ADD 中 最 大 值 的 比率 ， 后 
者 在 假设 只 有 一 个 256 位 AVX SIMD 的 情况 下 只 能 在 8FLOPS/cycle 中 完成 。 它 代表 可 以 达 
到 的 峰值 FLOPS 的 百分比 。 

图 23-1 和 图 23-2 展现 了 2S-ES 的 上 限 是 354.9GFLOPS 和 协 处 理 器 的 上 限 是 1049.8GFLOPS 
的 Roofline 模型 ， 这 都 分 别 是 从 后 一 种 AI 计算 方式 中 得 到 的 。 

一 个 更 加 贴近 现实 的 roofline 可 以 使 用 Stream Triad 所 得 到 的 带宽 乘 以 内 核 的 种 宽 得 到 
(分 别 为 390GFLOPS 和 780GFLOPS)。 同 时 ， 当 考虑 到 ADD/MUL 不 均衡 (IÑ (23-2)) 的 
时 候 ， 这 种 roofline 会 更 加 符合 现状 ， 如 图 23-1 和 图 23-2 中 标注 的 理论 市 宽 所 示 。 


( 23-2) 
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Roofline Model of ISO3DFD on Intel 2 sockets Ivy Bridge E2697V2 
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图 23-1 3DFD 在 Ivy Bridge 2S E5-2697 v2 上 的 Roofline 模型 。Roofline 分 别 代 表 了 理论 上 限 和 平台 
可 达到 的 极限 。 水 平 线 代表 当 考 虑 到 ADD/MUL 不 均衡 和 被 Stream Triad 带宽 加 权 后 的 最 大 
可 达到 峰值 。 垂 直线 代表 Iso3DFD 内 核 的 AI。 和 其 他 线 的 交叉 点 表明 对 应 的 可 达到 的 极限 


Roofline Model of Iso3DFD on Intel Xeon Phi CO-7120P 
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图 23-2 Xeon Phi 7120A 协 处 理 器 上 的 Roofline 模型 。Roofline 分 别 代表 了 理论 上 限 和 平台 可 达到 
的 极限 。 水 平 线 代 表 当 考虑 到 ADD/MUL 不 均衡 和 被 Stream Triad 带宽 加 权 后 的 最 大 可 达 
到 峰值 。 垂 直线 代表 着 Iso3DFD 内 核 的 AI。 和 其 他 线 的 交叉 点 表明 对 应 的 可 达到 的 极限 
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对 于 2S-E5 来 说 ， 新 的 上 限 大 约 是 298GFLOPS， 对 于 协 处 理 器 是 596GFLOPS。 因 为 
我 们 的 模型 是 建立 在 完美 缓存 系统 中 的 ， 所 以 这 些 数据 依旧 是 高 上 限 。 如 前 面 所 描述 ， 有 人 
可 能 会 通过 加 入 一 些 比较 低级 的 硬件 特征 得 到 更 加 现实 的 上 限 ， 比 如 缓存 的 影响 和 限制 。 仅 
有 的 缺失 信息 是 为 了 得 到 这 些 上 限 而 投入 的 实际 的 优化 成 本 。 


23.3 标准 优化 


标准 优化 的 意思 是 为 了 提升 并 行 化 、 回 量化 和 数据 局 部 性 而 做 的 修改 。 这 三 件 事 代 表 对 
于 现在 多 核 系 统 和 多 核 染 构 优 化 最 有 冲击 性 的 因素 。 我 们 通过 如 下 步 又 实现 它们 : 
dev00: 标准 的 实现 。 纯 粹 的 3D 各 癌 同 性 声波 方程 实现 ， 它 的 结果 是 正确 的 ( 见 图 23-3 )。 


for(int iz=0; iz«n3; iz++) ( 
for(int iy=0; iy<n2; iy++) i1 
for(int ix=0; ix<n1; ix++) 1 
if((iz»-HALF LENGTH && iz < n3-HALF LENGTH) && 
(iy>=HALF_LENGTH && iy < n2-HALF_LENGTH) && 
(ix>=HALF_LENGTH && ix < ni-HALF_LENGTH)){ 
int off = iz*nin2 + iy*nl + ix; 
float v = 0.0; 


v += prev[offset]*c[0]; 

^ for(int ir=1; ir«-HALF LENGTH; ir-**) { 
v*-c[ir]*(prev[off*ir] + prev[off-ir]); 
v*-c[ir]*(prev[off*ir*ni1] + prev[off-ir*niíl]); 
v*-c[ir]*(prev[off*ir*nin2] + prev[off-ir*nin2]); 


next [off] = 2.0f*prev[offl-next[offl*v*velloff]; 





图 23-3 ”未 经 过 优化 的 内 核 源 代码 (devo ) 


dev01 : dev00 在 最 内 层 循环 中 为 了 避免 内 存 边 界 访问 错误 而 加 入 的 条 件 分 文 。 在 开始 
AVX 指令 集 优 化 的 时 候 ， 这 些 分 支 要 使 用 掩 码 实现 ， 移 除 分 文 并 不 影响 2S-E5 上 的 性 能 ， 
但 是 会 在 协 处 理 器 上 得 到 2 倍 的 性 能 提升 。 事 实 上 ， 多 层 循 环 要 尽 可 能 避免 分 文 ， 以 防 编译 
器 不 能 很 好 地 处 理 掩 码 。 编 译 器 可 能 因为 计算 机 的 架构 的 复杂 性 (在 ES 中 乱 序 执行 引擎 与 
在 协 处 理 右 中 顺序 执行 引 敬 )、 指 令 集 和 向量 长 度 (256 与 512bit) 而 不 能 完美 地 处 理 掩 码 。 

dev02 : 缓存 分 块 会 减少 缓存 命中 的 数量 并 且 仪 需要 三 个 新 的 循环 ( 见 图 23-4 )。 这 个 
方法 的 缺点 是 添加 了 新 的 参数 去 控制 块 大 小 。 但 是 甚至 不 用 优化 这 些 参数 ， 性 能 在 协 处 理 天 
上 也 能 够 得 到 巨大 提升 ， 当 为 了 能 够 向 量化 而 将 倒数 第 二 层 循环 ( 较 快 维度 ) 的 指数 从 0 E 
新 映射 到 ixEnd 后 ， 协 处 理 需 上 的 性 能 将 会 得 到 明显 提升 。 

dev03 : 为 了 保证 线程 中 变量 是 线程 私有 的 ， 并 且 这 些 私 有 变量 不 只 在 一 次 迭代 中 起 作 
用 ， 我 们 将 加 ragma omp parallel for 语句 分 成 加 ragma omp parallel 和 加 ragma omp for 语 
A, HERA OMP 子 句 中 插入 了 私有 变量 的 声明 。 

dev04 : #pragma ivdep 指令 能 够 提示 编译 需 去 向 量化 数组 ， 这 些 被 癌 量 化 的 数组 在 循 
环 中 一 定 要 是 没有 别名 的 (假设 别名 是 C/C++ 编译 器 的 默认 行为 )。 回 量化 可 以 通过 编译 需 
参数 ( -fno-alias) 或 者 使 用 C/C++ pragmas 或 者 Fortran 指令 来 启动 。 一 个 相对 危险 的 方式 
是 使 用 #pragma simd 指令 ， 这 个 指令 强迫 编译 器 向 量化 数组 ,但 是 如 果 代 码 中 存在 别名 
或 者 依赖 ， 则 可 能 导致 不 正确 的 结果 。 


A H Sl Stencil tt JE P 89 jlt R RRAS 297 


for(int bz-HALF LENGTH; bz<n3; bz-*-n3 Tblock) 
for(int by-HALF LENGTH; by<n2; by+=n2_Tblock) 
for(int bx-HALF LENGTH; bx<ni; bx-*-ni Tblock) 1 
int izEnd = MIN(bz-*n3 Tblock, n3); 
int iyEnd = MIN(by*n2 Tblock, n2); 
int ixEnd = MIN(ni_Tblock, ni-bx); 
int ix; 
for(int iz=bz; iz<izEnd; iz-*-*) ( 
for(int iy=by; iy<iyEnd; iy++) { 
float* next ptr next base + iz*nin2 + iy*ni + bx; 


float* prev = ptr prev base + iz*nin2 + iy*ni + bx; 


float* vel = ptr_vel_base + iz*nin2 + iy*ni + bx; 
for(int ix=0; ix<ixEnd; ix++) { 
float value = 0.0; 
value += prev[ix]*c[0]; 
for(int ir-1; ir<=HALF_LENGTH; ir-**) { 
value += c[ir] * (prev[ix + ir] + prev[ix irj); 
value += c[ir] * (prev[ix + ir*ni] + prev[ix - ir*n1]); 
value += c[ir] * (prev[ix + ir*nin2] + prev[ix - ir*nin2]); 


next[ix] = 2.0f* prev[ix] - next[ix] + value*vel[ix]; 





图 23-4 ”缓存 分 块 后 的 内 核 源 代码 (dev02 ) 


dev05 : 虽然 编译 器 提示 已 经 向 量化 了 循环 ， 但 开启 AVX (ymm 寄存 器 ) 可 能 也 是 困难 
的 事情 ， 因 此 手动 展开 并 使 用 如 assume aligned 的 指令 (这 个 指令 能 够 提供 AVX 向 
量化 ) (图 23-5 ) 可 以 改进 AVX 的 向 量化 。 我 们 创建 了 一 个 名 为 CACHELINE BYTES (等 
F64) 的 C 宏 进而 阐明 实现 (图 23-5). 

dev06 : FD 系数 (cl,c2 等 ) 的 分 解 对 每 个 系数 移 除了 两 个 MUL 操作 (图 23-6). 在 
2S-ES 上 ， 这 一 改变 会 导致 乘 加 数目 不 均衡 而 可 能 降低 性 能 。 然 而 ， 使 用 协 处 理 器 的 顺序 微 
处 理 器 架构 ， 移 除 额外 的 指令 会 使 得 性 能 提升 ， 这 点 在 图 23-11 中 展示 。 

dev07 : 非 一 致 内 存 访 问 (NUMA) 是 多 套 接 字 平台 非常 重要 的 特征 。 对 于 当前 操作 系 
统 ， 一 个 典型 的 动态 内 存 分 配 (比如 ， m m malloc) 会 记录 所 有 需要 的 内 存 空间 ， 但 是 
实际 的 物理 内 存 只 有 在 首次 变量 读 写 (或 者 映射 ) 时 才 会 定义 。 这 种 第 一 次 接触 原则 ， 以 及 
定义 良好 的 线程 或 者 进程 亲 和 性 ， 使 得 开发 者 可 以 在 相同 的 NUMA 节点 中 分 配 物理 内 存 页 ， 
而 这 个 NUMA 节点 可 能 在 运行 消耗 内 存 页 的 线程 。 数 据 首次 初始 化 时 完成 在 内 存 中 的 定位 ， 
这 种 初始 化 要 在 之 后 再 现 相 同 数据 分 割 的 并 行 域 中 完成 ， 而 这 些 分 割 的 数据 将 会 在 之 后 的 多 
线程 计算 中 使 用 。 这 个 优化 极 大 地 提升 了 2S-E5 的 性 能 (图 23-11 ) 。 

dev08: 为 了 优化 寄存 融 的 使 用 ， 这 个 版 本 利用 了 C/C++ 对 于 硬件 内 置 编程 的 支持 。 这 
个 方法 的 缺点 是 它 使 得 实现 更 加 复杂 ， 并 且 针 对 不 同 的 硬件 指令 集 而 需要 多 种 版 本 。 因 为 
有 C 宏 ,代码 保持 了 图 23-7 所 示 的 形式 。 相 对 于 协 处 理 器 ， 这 点 优化 对 2S-E5 有 更 大 的 
影响 ， 如 图 23-11 BRN. KAW Eh SS LE, SHIFT MULT INTR 是 用 指令 _mm12_ 
alignr epi32 实现 的 ， 这 条 指令 允许 在 32 位 ( 单 精 度 ) 值 上 右 移 。 因 此 ， 对 于 单个 具有 
3 次 加 载 操作 的 向 量 ， 在 快速 维度 上 能 够 计算 有 限 差 分 ， 如 图 23-8 和 图 23-9 所 示 。 

我 们 当前 正在 研究 AVX2 指令 的 使 用 情况 ， 这 些 信 息 将 保证 在 新 的 Intel Xeon E5-2600 
v3 架构 上 的 这 些 优化 具有 等 价 性 。 我 们 将 在 http://lotsofcores.com 上 提供 更 新 信息 。 
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图 23-5 





.assume aligned(ptr next, CACHELINE, BYTES); 
.assume aligned(ptr prev, CACHELINE BYTES); 
.assume aligned(ptr vel, CACHELINE. BYTES); 


#pragma ivdep 
for(int ix=0; ix<ixEnd; ix-**) { 


v = preví[ix]*cO 

ci * FINITE ADD(ix, 1) 

61 FINITE . ADD(ix, vertical 1) 
c1 FINITE ADD(ix, front 1) 

c2 FINITE ADD(ix, 2) 

c2 FINITE. ADD(ix, vertical. 2) 
c2 FINITE ADD(ix, front 2) 

es FINITE ADD(ix, 3) 

c3 FINITE ADD(ix, vertical_3) 
c3 FINITE. ADD(ix, front 3) 

c4 FINITE ADD(ix, 4) 

ca FINITE. ADD(ix, vertical. 4) 
c4 FINITE ADD(ix, front 4) 

c5 FINITE. ADD(ix, 5) 

c5 FINITE ADD(ix, vertical. 5) 
c5 FINITE. ADD(ix, front. 5) 

c6 FINITE. ADD(ix, 6) 

c6 FINITE. ADD(ix, vertical. 6) 
c6 FINITE ADD(ix, front. 6) 

et FINITE. ADD(ix, 7) 

c7 FINITE ADD(ix, vertical_7) 
c7 FINITE .ADD(ix, front 7) 

c8 FINITE ADD(ix, 8) 

c8 FINITE .ADD(ix, vertical_8) 
c8 FINITE ADD(ix, front. 8) 


十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 十 
其 X dX Ke Ke Ee HHH 其 其 其 其 HE KH KE 其 KH 其 其 KH HR F 


next[ix] = 2.0f* prev[ix] - next[ix] * v*vel[ix]; 


内 核 dev04 和 dev05 的 源 代码 。 这 里 FINITE ADD 是 类 型 v[ix*off]*v[ix- 
off] XEK FD WE 


..assume aligned(ptr next, CACHELINE. BYTES); 
..assume aligned(ptr prev, CACHELINE. BYTES); 
..assume aligned(ptr vel, CACHELINE. BYTES); 
#pragma ivdep 
for(int ix-0; ix«ixEnd; ix++) { 
prev[ix]*cO 
+ ci * ( FINITE ADD(ix, 1) 
* FINITE ADD(ix, vertical.1) 
* FINITE. ADD(ix, front 1)) 
+ c2* ( FINITE ADD(ix, 2) 
FINITE ADD(ix, vertical_2) 
FINITE ADD(ix, front_2)) 
FINITE ADD(ix, 3) 
FINITE ADD(ix, vertical.3) 
FINITE ADD(ix, front. 3)) 


2.0f* prev[ix] - next[ix] + v*vel[ix]; 





图 23-6 dev06 中 的 部 分 内 核 
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#pragma ivdep 

for (TYPE INTEGER ix=0;ix<ixEnd; ix+=SIMD_STEP){ 
SHIFT MULT INIT 
SHIFT MULT INTR(1) 
SHIFT MULT INTR(2) 
SHIFT MULT INTR(3) 
SHIFT MULT INTR(4) 
SHIFT. MULT INTR (5) 
SHIFT. MULT. INTR(6) 
SHIFT. MULT INTR(7) 
SHIFT. MULT INTR (8) 


MUL COEFF INTR(vertical 1, front 1, coeffVec[i]) 
MUL. COEFF INTR(vertical 2, front 2, coeffVec[2]) 
MUL COEFF INTR(vertical 3, front 3, coeffVec[3]) 
MUL. COEFF INTR(vertical 4, front 4, coeffVec[4]) 
MUL COEFF INTR(vertical.5, front. 5, coeffVec[5]) 
MUL COEFF INTR(vertical 6, front 6, coeffVec[6]) 
MUL. COEFF INTR(vertical 7, front 7, coeffVec[7]) 
MUL COEFF INTR(vertical 8, front 8, coeffVec[8]) 


REFRESH, NEXT. INTR 





图 23-7 在 dev08 FHA ERAZ 
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图 23-8 在 协 处 理 上 的 快速 维度 (coefficient c0 ) 


Shift > > 
… X-5X-4 X-3 X-2ğx-1 x0 | x1 


$ 


x6 | x7 x8. 













Shift<<  - | 


» IX-31X-21X-11 XO 





RIEN 


dO d1 d2 








dO dt d2 d3 d4 d5 | d6 |d7 |d8 | d9 d10 d11 d12 d13 d14 d15 





23-9 HME E RS Des fe RE m 1k, (*coefficient cl ) 


对 于 其 他 两 个 维度 ， 向 量化 是 比较 简单 的 。 对 于 单个 系数 ， 只 需要 4 次 加 载 ， 接 着 这 些 
向 量 加 起 来 并 乘 以 系数 (图 23-10 )。 这 是 在 宏 MUL COEFF INTR (图 23-12 和 图 23-13 ) 
中 实现 的 。 
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shift R 2 prev |  znex y prev y prev 


plusVec zPrevVec zNextVec yPrevVec yNextVec 







+ 4 


Add 2 Add 3 
zSumVec ySumVec 
Bae——— 

Add 4 


tempSum Coeff 





图 23-10 dev08 上 对 于 单个 系数 的 操作 


dev09 : 在 协 处 理 器 上 ， 减 少 了 临时 变量 的 数量 ， 同 时 ， 使 用 FMA 指令 (融合 了 乘 加 
操作 ) 也 可 减少 了 寄存 器 压力 。 系 数 在 计算 (6 FMA) 的 过 程 中 能 够 保存 在 相同 的 寄存 器 中 ， 
并 且 每 个 FMA 结果 直接 发 送 到 下 一 组 计算 中 ， 而 数据 只 在 寄存 器 间 传 输 ( 见 图 23-11 )。 在 
AVX2 上 FMA 使 用 情况 的 讨论 仍然 在 继续 。 


shift R Zprev | z next y prev y prev 
plusVec zPrevVec | zNextVec yPrevVec | yNextVec 
Prev Result oeff | | 
divVec Coeff 


e 
FMA £* 
























图 23-11 dev09 上 对 于 单个 系数 的 操作 


|. | Jvy Bridge | 协 处 理 器 


占 峰 值 性 能 占 峰 值 性 能 


图 23-12 VLA GFLOPS 为 单位 表示 协 处 理 器 上 ECC off/Turbo fil Ivy Bridge 上 Turbo 的 性 能 
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[] 23-13 fE2S-ES 和 协 处 理 器 上 ， 每 个 版 本 的 效率 。 最 优 版 dev09 也 同时 被 遗传 算法 自动 调整 优化 过 


23.3.1 自动 应 用 调试 


因为 微 架 构 变 得 越 来 越 复杂 ， 以 及 数量 不 断 增 加 的 调试 标志 和 编译 指示 或 者 指令 ， 所 以 
编译 器 也 更 难以 使 用 。 在 多 维度 参数 空间 中 的 优化 问题 尽管 可 以 手动 处 理 ， 但 是 通过 数学 优 
化 会 更 容易 一 

为 了 得 到 优化 参数 ， 基 于 上 述 想法 ， 我 们 开发 了 一 个 基于 GA 优化 的 自动 调试 框架 。 我 
们 的 工具 就 像 编 译 器 一 样 运行 ， 并 使 用 GA 算法 求 出 一 个 效率 高 的 参数 集 。 

为 这 样 的 优化 问题 而 选择 正确 的 方法 并 不 是 显而易见 的 ，23.5 节 中 的 出 版 物 ， 如 
“Introduction to Stochasitc Search and Optiomization” (James, 2013) 或 者 “Metaheuristics 一 
The Metaphor Exposed”(S6rensec，2013)， 可 能 可 以 帮助 你 更 好 地 理解 局 发 式 算 法 研究 领 
域 和 随机 优化 的 特点 。 同 时 我 们 已 经 提供 了 一 个 链接 ， 其 中 含有 GA 的 开源 库 实现 ， 以 便 创 
建 相 似 的 框架 。 

我 们 的 目标 是 选择 一 个 优化 算法 ， 即 便 在 不 完整 、 不 完美 的 信息 中 也 能 得 到 好 的 解 。 就 
像 任何 非 耗 尽 优 化 算法 或 者 迭代 算法 (比如 模拟 退火 算法 ) 一 样 ， 并 不 能 保证 得 到 的 是 全 局 
最 优 解 。 

很 多 的 启发 式 算 法 用 随机 算法 的 一 些 形式 实现 ， 这 样 解 的 产生 依赖 于 产生 的 随机 变量 
集 。GA 以 离散 和 结合 优化 问题 为 目标 ， 比 如 3DFD 案例 。 

GA 操作 总 体 。 一 个 GA 选择 一 代 中 几 个 最 优 的 个 体 并 产生 新 的 一 代 ， 新 的 一 代 包 括 比 
前 一 代 更 优 的 特性 。 在 本 例 中 ， 第 一 代 是 随机 产生 的 ， 并 用 来 产生 第 二 代 。 这 个 过 程 可 以 用 
来 重复 运算 很 多 次 。 一 个 群体 由 不 同 个 体 组 成 ， 一 个 个 体 是 由 多 个 编译 需 优 化 选项 、 一 个 展 
开 因 素 、 执 行 域 、 缓 存 块 大 小 、MPI 域 的 形状 和 大 小 以 及 能 量 消耗 等 属性 描述 的 。 

我 们 认为 输入 域 的 尺寸 (速度 、 密 度 、 各 疝 异 性 参数 ) 是 固定 的 ， 因 为 它们 是 从 先前 处 
理 步骤 中 得 到 的 。 当 在 每 个 节点 分 配 一 个 或 者 多 个 震源 gather 的 时 候 ， 这 些 输入 大 小 不 能 更 
改 。 然 而 ， 当 考虑 到 一 个 域 分 解 实现 时 ， 我们 能 够 在 每 个 共享 内 存 节 点 优化 域 大 小 。 为 了 创 
造 新 的 一 代 ，GA 与 4 个 主要 概念 相关 (图 23-14 )。 

评估 : 对 于 每 个 个 体 ， 提 供 一 个 评估 标准 。 这 个 评估 标准 叫 作 适应 性 (fitness), RII 
想 减 少 流逝 的 时 间 ( 低 适应 性 的 评估 ) 或 者 增加 GFLOPS (高 适应 性 的 评估 ) 来 作为 评估 
标准 。 
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[currentGeneration 没 有 足够 的 个 体 ] 


[currentGeneration 有 足够 的 个 体 ] 





(- 
图 23-14 遗传 算法 优化 的 一 般 流 程 图 。 在 本 例 上 ， 我 们 将 流逝 的 时 间作 为 评估 标准 


挑选 : 挑选 允许 我 们 在 现存 的 个 体 中 挑选 一 些 个 体 去 繁衍 和 变异 。 挑 选 必须 支持 最 好 的 
Aik, 但 是 也 必须 选择 一 些 “ 坏 ”个 体 ， 这 是 为 了 避免 过 快 收敛 到 局 部 最 优 解 。 多 数 时 候 ， 
选择 这 步 操作 是 基于 适中 的 非 一 致 分 布 的 随机 选择 。 轮 盘 法 可 以 用 来 挑选 个 体 (图 23-15 )。 
因此 一 个 个 体 奉 有 更 好 的 适应 性 ， 被 选择 的 机 会 则 会 更 高 。 第 一 步 是 评 佑 每 个 个 体 的 适应 
性 ， 接 着 根据 适应 性 排序 这 些 个 体 。 在 最 后 一 步 中 ， 先 选择 一 个 介 于 0 到 个 体 总 数 的 随机 
数 。 这 群 个 体 被 琶 加 起 来 并 且 选 择 出 适应 性 匹配 的 个 体 。 
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Step 3 


KI 23-15 轮 盘 法 的 描述 ， 这 种 方法 中 个 体 根 据 其 适应 性 分 布 。 这 个 选择 支持 : 最 优 个 体 一 
定 会 被 选择 ， 一 些 “ 坏 ”的 个 体 也 有 可 能 被 选择 ， 这 样 可 以 避免 过 快 收 敛 到 局 部 
最 有 优 解 。 在 这 个 案例 中 ， 步 又 3 中 ，2650 是 一 个 随机 数 ， 它 选择 了 个 体 13 


繁衍 : 繁衍 是 一 个 允许 GA 朝 着 最 优 解 方向 收敛 的 过 程 。 前 一 代 中 的 两 个 或 者 多 个 个 体 
融合 从 而 创造 出 来 一 个 或 者 多 个 新 的 个 体 。 给 定 两 个 父 状 ， 轴 代表 用 来 分 裂 和 结合 成 为 新 个 
体 的 索引 。 首 先 随机 选择 轴 的 数字 ， 接 着 随机 选择 每 条 轴 的 索引 (图 23-16 )。 





子 辈 1 子 辈 2 


图 23-16 沿 一 条 轴 繁 衍 的 解释 。 繁 衍 是 一 个 允许 GA 朝 着 最 优 解 方向 收敛 的 过 程 。 给 定 两 个 父辈 ， 
轴 代 表 用 来 分 裂 和 结合 为 新 个 体 的 索引 。 首 先 随机 选择 轴 的 数字 ， 接 着 选择 每 条 轴 的 索引 


变异 : 变异 保证 了 对 参数 空间 的 换 索 并 避免 过 快 收 敛 到 局 部 最 优 解 。 因 此 我 们 随机 选择 
属性 进行 修改 并 赋予 它们 随机 值 (图 23-17 ). 
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在 描述 GA 的 上 述 四 步 中 ， 计 算 密集 度 最 高 的 步 又 是 评估 步 又 ， 这 一 步 中 ， 为 每 次 实验 
建立 并 运行 应 用 程序 。 这 点 对 于 任何 搜 

个 体 
过 算法 来 说 都 是 关键 点 ， 因 为 评估 给 定 0C MEN — 
参数 集 所 需要 的 时 间 将 会 对 优化 方法 的 为 变异 轿 择 参 娄 


| 
选择 有 影响 。 如 图 23-18 所 示 , 我 们 可 m SRL RU 
此 第 要 上 千 次 实验 ， 并 且 ， 如 要 测试 用 “加 23.17 变异 的 解释 。 变 异 保证 了 参数 空间 的 探索 并 
例 的 时 间 不 够 短 甚至 GA 在 并 行 模式 下 避免 参数 过 快 朝 着 局 部 最 优 解 的 方向 收敛 
都 运行 ， 完 成 这 个 测试 是 不 可 能 的 。 


对 于 Xeon Phi 在 lso3DFD (dev08) 上 使 用 自动 调试 工具 


kc 


moss 





图 23-18 在 协 处 理 硕 上 用 自动 调试 工具 优化 Iso3DFD 参数 


对 于 时 间 步 应 用 (这 种 应 用 中 ， 一 些 (密集 型 的 ) 计算 是 通过 每 次 迭代 实现 的 )， 我 们 接 
着 能 减少 时 间 步 的 数量 去 评估 参数 调整 的 冲击 。 初 始 化 会 影响 最 少 迭 代数 目的 选择 ， 这 样 才 
能 保证 没有 缓存 效应 影响 搜索 。 

做 优化 或 做 基准 测试 时 所 处 的 情况 是 相同 的 。 为 了 保证 任何 修改 所 需要 的 评 佑 时 间 都 不 
会 超过 一 分 钟 ， 并 且 保 持 应 用 具有 代表 性 的 特征 ， 选 择 合适 的 测试 用 例 是 极度 重要 的 事情 。 
在 MPI 域 分 解 形状 影响 不 同 节点 通信 的 情况 下 ， 测 量 单 节点 足以 对 一 些 主要 的 参数 (缓存 
AR. Sika) 进行 调 优 。 当 然 ， 为 了 优化 域 分 解 形状 的 影响 或 者 调试 MPI 环境 变量 ， 
相同 的 方法 能 够 应 用 到 集群 级 别 的 优化 上 ， 但 关键 依旧 是 保证 一 个 节点 运行 过 程 的 代表 性 。 
男 一 个 缩短 收敛 时 间 的 方法 是 在 多 个 计算 系统 中 并 行 估计 多 个 个 体 。 


23.8.2 自动 调试 工具 


我 们 为 优化 程序 的 构架 和 执行 开始 了 一 个 工具 。 我 们 的 目 动 调试 工具 可 以 进行 如 下 
配置 。 
e 描述 项 目 〈 路 径 、 工 作 目 录 、 代 数 、 个 体 数 等 )。 
e 描述 一 个 “节点 ”集合 。 对 于 每 个 节点 ， 线 程 在 机 器 上 创建 ， 它 运行 目 动 调试 工具 。 
这 个 线程 局 动 编译 并 使 得 运行 程序 以 并 行 优 化 多 个 市 点 。 
e 定义 变量 (int, float, stringset) 和 它们 可 以 使 用 的 值 ， 这 些 值 将 用 于 配置 文 
件 的 其 他 地 方 ; 比如 : 


int vill, 100; 5] 
float v2[0.1, 12.6] 


stringset v3["This", "is", "an", "example"] 
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e 加 入 背景 知识 ， 这 些 背 景 知识 要 在 先 验 (a priori) 信息 或 者 限制 形式 下 出 现 。 一 个 个 
体能 够 加 入 当前 一 代 只 有 它 满足 所 有 限制 。 比 如 : 这 里 有 一 个 关于 nl1、n2、n3 的 
限制 : n1*n2*n3<100,00; 


begin constraints 
nl*n2*n3 « 100000 
end constraints 


e 配置 编译 和 执行 的 环境 
e 建立 并 结合 编译 或 者 执行 调用 的 命令 : 
begin buildcall 
"make clean; make" 
end buildcall 
begin programcall 


"./run on mic.pl";"bin/iso3dfd.exe";NODE;n1;n2;n3;cb1;cb2;cb3;nbThreads 
end programcall 


e 指明 一 个 正则 表达 式 从 程序 输出 中 获取 适应 性 。 在 本 例 中 ，Iso3DFD 输出 速度 
是 GFLOPS 为 单位 的 。 正 则 表达 式 语 法 使 用 Perl。 接 下 来 的 样 例 展示 了 如 何 匹配 
Iso3DFD 的 数值 结果 。 | 


begin regex 
"speed: \s* ([0-9\.]+) \s*GFlop\/s" 
end regex 


23.3.3 结果 


图 23-13 展示 了 在 nl = 256, n2 = 200 Fil n3 = 400 数据 集 情形 下 的 性 能 结果 ， 这 个 优化 
修改 了 10 个 版 本 (dev 00 到 dev 09). XE, 在 2S-E5 (24 个 线程 ) 和 协 处 理 需 ( 244 个 线 
FE) 上 达到 了 大 致 又 6 倍 和 30 售 的 性 能 提升 ， 自 动 调试 工具 仅仅 应 用 到 devo 版 本 上 ， 相 
比 于 原始 的 版 本 ， 它 提供 了 两 倍 的 性 能 提升 。 图 23-18 展示 了 为 自动 调试 工具 做 每 次 尝试 之 
后 以 GFLOPS 为 单位 的 性 能 提升 情况 ( 越 高 越 好 )。 整 体 性 能 逐步 增加 到 超过 350GFLOPS 
图 23-19 展示 了 通过 自动 调试 工具 产生 的 参数 ， 它 为 dev02、dev07 和 dev09+GA 提供 了 更 
高 的 性 能 。 

对 于 2SES 和 协 处 理 器 ， 我 们 分 别 达 到 了 最 高 性 能 的 大 约 70% 和 60%。 考 虑 到 roofline 
模型 中 的 完美 缓存 假设 ， 这 一 句 是 非常 好 的 结论 。 效 率 在 协 处 理 上 稍微 差 一 点 是 出 于 顺序 微 
处 理 融 和 大 量 线程 数 的 缘故 。 典 型 地 ， 任 何 优 化 都 会 影响 两 个 平台 ,但 是 我 们 注意 到 在 协 处 
理 器 上 最 大 的 影响 因素 是 : 

e AX EUR) E 

e 内 核 分 解 指令 减少 

e VIE IX 

但 是 在 2S-E5 平台 上 最 大 的 影响 因素 来 源 于 : 

e 手动 展开 和 assume aligned 指令 

e 第 一 次 接触 


23.4 总 结 
除了 讨论 上 述 方法 的 性 能 提升 之 外 ， 本 章 中 最 重要 的 方法 是 保证 高 性 能 的 三 步 方法 : 
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e 在 开始 调试 之 前 评估 可 到 达 的 最 高 性 能 。 

e 调试 代码 实现 并 行 性 、 数 据 局 部 性 和 回 量 化 。 

e 为 构建 和 运行 时 阶段 自动 调试 两 组 最 优 参 数 。 

为 了 提升 性 能 而 建立 策略 是 一 个 复杂 的 任务 ， 在 制定 这 项 策略 前 我 们 应 该 知道 这 个 应 用 
在 给 定 平台 上 的 功能 。 如 果 我 们 只 关注 总 共 流 逝 的 时 间 ， 而 对 最 优 可 达 性 能 没有 任何 概念 ， 
是 一 点 意义 都 没有 的 。 计 算 Roofline 模型 是 了 解 性 能 上 限 最 直接 的 方法 。 一 但 结束 这 项 任务 ， 
大 多 数 时 间 将 花 在 手动 优化 阶段 。 现 在 已 经 有 了 很 多 很 完善 的 策略 ， 比 如 自 顶 向 下 迭代 (参考 
样 例 ，https://software.intel.com/en-us/articles/de-mystifying-software-performance-optimization ) 。 

必须 时 刻 记 住 ， 对 于 第 一 序 近 似 ， 至 少 在 节点 级 ， 大 多 数 高 性 能 科学 应 用 都 被 FLOPS 
或 者 Bytes/s 所 限制 ， 即 所 谓 的 CPU 和 带宽 限制 。 当 应 用 迁移 到 集群 级 后 ， 关 键 因 素 被 浓缩 
在 了 Amdahl 法 则 中 ， 关 键 因素 也 包含 在 实现 负载 均衡 的 需求 中 ， 从 而 弥补 任何 工作 负载 或 
硬件 的 不 均衡 。 

深入 到 代码 中 ， 代 码 的 向 量化 (或 者 SIMD 化 ) 对 于 达到 最 优 性 能 来 说 是 男 一 个 关键 因 
素 。 但 是 ， 利 用 最 大 的 SIMD 性 能 将 依赖 于 平台 的 带宽 能 力 和 FP。 

“最 佳 优化 ”并 行 实现 之 后 ， 我 们 相信 自动 调试 将 成 为 提取 计算 系统 中 最 佳 性 能 的 关键 
一 步 。 再 一 次 ,“ 最 佳 优 化 ”可 以 根据 其 他 标准 而 定义 ， 不 仅仅 是 简单 的 性 能 。 当 我 们 可 以 
在 其 Roofline 模型 中 定位 应 用 程序 时 ， 我 们 就 可 以 估计 怎样 进一步 优化 应 用 。 如 果 我 们 参考 
本 章 中 10 个 相同 版 本 的 3DFD 内 核 ， 那 么 很 清楚 的 是 ， 开 发 和 维护 成 本 在 原始 devoo 版 本 
和 内 置 函 数 dev09 版 本 不 同 。 

一 旦 选择 基于 行业 或 研发 标准 ， 使 用 一 个 自动 调试 工具 来 得 到 最 优 参数 而 无 需 修 改 源 代 
码 是 一 个 非常 优雅 和 简单 的 方法 ， 这 种 方法 可 以 让 代码 得 到 相当 大 的 改进 ， 同 时 保持 代码 的 
可 移植 性 和 可 维护 性 。 还 要 注意 ， 没 有 必要 为 每 个 更 改 或 每 次 代码 的 运行 而 运行 GA 目 动 调 
试 工具 ， 只 有 当 硬 件 或 工作 负载 特征 显著 变化 时 才 有 必要 这 人 么 做 。 


23.5 更 多 信息 


Sórensen, K., 2013. Metaheuristics—the metaphor exposed. International Transactions in 
Operational Research. http://dx.doi.org/10.1111/itor.12001. 

Spall, J.C., 2003. Introduction to Stochastic Search and Optimization, first ed. John 
Wiley & Sons, Inc., New York, NY. 

Williams, S., Waterman, A., Patterson, D., 2009. Roofline: an insightful visual perfor- 


mance model for multicore architectures. Communications of the ACM. 52 (4), 65-76 
http://doi.acm.org/10.1145/1498765.1498785. 

e A large variety of genetic algorithm software can be found on http://www.geneticprog- 
ramming.com/ga/GAsoftware.html and http://www.cs.cmu.edu/afs/cs/project/ai- 


repository/ai/areas/genetic/ga/systems/0. html. 


Several genetic algorithm libraries for different programming languages can be found at 
http://geneticalgorithms. ai-depot.com/Libraries.html. 


Download all codes from this, and other chapters, http://lotsofcores.com. 
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剖析 指导 优化 是 一 种 使 用 应 用 程序 的 性 能 分 析 ( 训 析 ) 工具 提高 开发 人 员工 作 效 率 的 优 
化 方法 。 基 于 齐 析 工具 反馈 的 结果 ， 程 序 员 可 以 优化 源 代 码 以 提高 处 理 融 及 协 处 理 硕 上 程序 
的 性 能 。 众 所 周知 ， 通 用 的 训 析 工具 可 以 识别 代码 中 的 “热点 ”， 即 代码 执行 过 程 中 耗费 绝 大 
部 分 时 间 的 图 数 或 者 代码 段 。 因 此 ， 使 用 谢 析 工具 (如 Intel VTune Amplifier XE) 可 以 进 一 
步 提 示 程 序 员 关于 限制 程序 性 能 的 一 般 性 问题 ， 如 缺乏 并 行 性 、 负 载 不 均衡 及 高 延迟 操作 等 。 

本 草 汤 示 的 剖析 指导 优化 基于 Intel 架构 。 示 例 代 码 中 涉及 存储 器 和 缓存 流量 调 优 的 难 
题 ， 其 关键 在 于 方 阵 的 就 地 转 置 问题 。 和 矩阵 转 置 可 以 用 来 解决 许多 计算 问题 ， 包 括 离散 快速 
傅 里 叶 变 换 、 线 性 代数 中 的 数值 方法 、 图 像 处 理 及 计算 流体 动力 学 。 由 于 和 抢 阵 转 置 不 涉及 算 
术 运 算 ， 因 此 其 性 能 主要 取决 于 内 存 及 缓存 的 访问 带宽 。 实 验证 明 在 矩阵 转 置 过 程 中 ， 可 以 
通过 优化 数据 局 部 性 、 规 范 化 内 存 访 问 模式 及 使 用 并 行 性 有 效 提 升 内 存 访问 带宽 。 应 用 剖析 
工具 (Intel VTune Amplifier XE) 可 以 有 效 指导 Intel Xeon Jb 3825 All Intel Xeon Phi 协 处 理 需 
平台 上 算法 优化 策略 的 使 用 。 本 章 的 实验 结果 和 实验 方法 适用 于 多 核 Intel Aba (CPU) F 
台 以 及 基于 MIC 架构 的 众 核 协 处 理 融 平台 。 


24.1 计算 机 科学 中 的 和 矩阵 转 置 


本 章 训 析 指 导 优 化 中 测试 用 例 的 计算 “热点 ” 即 为 矩阵 转 置 。 二 维和 抢 阵 转 置 是 指 重 新 排 
列 和 矩阵 元 素 ， 使 矩阵 的 行 改 变 成 列 ， 列 对 应 改变 成 行 。 和 矩阵 转 置 通常 应 用 于 多 维 数组 的 预 处 
理 ， 目 的 是 使 对 多 维 数组 的 数据 访问 具有 连续 性 ， 避 人 免 数据 访问 出 现 较 大 步 长 。 例 如 在 线性 
代数 运算 (如 xGEMM) 中 ， 较 优 的 做 法 是 首先 进行 矩阵 转 置 ， 以 达到 数据 连续 访问 的 目的 。 
矩阵 转 置 是 一 些 离散 快速 傅 里 叶 变 换 方法 的 基础 ( 见 24.9 节 第 3 条 文献 )。 同 样 计算 流体 动 
力学 中 也 采用 了 多 维 数组 的 转 置 ， 例 如 模板 解 算 右 在 多 维 数组 中 的 每 个 维度 都 使 用 了 转 置 运 
FH (UL 24.9 节 第 6 条 文献 )。 然 而 ， 若 试图 使 用 转 置 运 算 对 其 他 算法 进行 预 处 理 并 获得 加 速 
效果 ， 则 转 置 运算 本 上 身 必 须 是 高 效 的 。 

本 草 的 讨论 仅 限 于 共享 存储 融 中 方 阵 元 素 的 就 地 转 置 。 "就 地 ”意味 着 转 置 结 果 和 矩阵 履 
盖 原 始 矩 了 泗 ， 且 共享 存储 右 转 置 算法 中 的 数据 存储 在 单一 计算 节点 ， 而 不 是 整个 集群 。 本 章 
内 容 仅 限于 方 阵 ， 长 方形 矩阵 转 置 是 一 个 更 加 复杂 的 问题 ,但 是 其 同样 可 以 从 方 阵 加 速 计算 
中 得 到 启发 (UL 24.9 节 第 4 条 文献 )。 

数学 上 ， 转 置 定义 如 下 : 

A,=A,, i20, (n-1), j=0,L",(n—1) 


TEVESEBUEE Eds P, EE 4 中 元 素 Ag FETE IE eS ee lr b f Ee i s dx n + AT CR ) 
或 者 偶 移 量 是 7 xz+i( 列 优先 矩阵 ) 的 位 置 。 为 了 不 失 一 般 性 ， 本 章 分 别 讨 论 以 上 两 种 情况 。 
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Intel Xeon 处 理 器 和 Intel Xeon Phi 协 处 理 器 平台 下 ， 行 优先 矩阵 转 置 的 难题 在 于 数据 的 
移动 以 64 个 字 节 的 数据 块 (缓存 行 ) 为 单位 。 如 果 数 据 是 双 精 度 (每 个 数据 8 字 广 )， 则 每 个 
缓存 行 包含 8 个 矩阵 元 素 。 因 此 ， 程 序 中 即使 每 次 只 取 1 个 矩阵 元 素 ， 从 内 存 中 获取 该 元 素 
的 过 程 中 缓存 也 取得 了 另外 相 邻 的 7 个 元 素 。 如 果 缓 存 行 中 所 有 的 8 个 元 素 依 次 参与 计算 ， 
则 该 种 方式 能 够 取得 很 好 的 性 能 。 然 而 ， 如 果 存 储 器 访问 模式 是 处 理 器 一 次 从 绥 存 行 中 取 1 
个 数据 ， 则 处 理 顺 指针 移动 是 基本 需求 的 8 倍 ， 这 极 大 地 影响 程序 的 性 能 ， 但 是 这 种 情况 在 
转 置 运算 中 十 分 常见 。 例 如 在 行 优先 矩阵 中 交换 多 个 元 素 Ay 为 4;， 如 果 数 据 访问 是 连续 的 
( 即 坐 标 j 是 顺序 增加 的 ， 如 Ay, Aio. Aig) 等 )， 那么 取 数 据 过 程 中 每 个 缓存 行 中 的 所 有 数据 
都 被 命中 。 然 而 ， 写 数据 过 程 中 对 应 位 置 Aj. Agen, Aga 数据 都 命中 在 不 同 的 缓存 行 中 ( 假 
定数 据 是 双 精 度 ， 且 n > 8 )。 同 样 ， 该 理论 适用 于 列 优 先 矩 阵 。 数 据 访问 示意 图 见 图 24-1。 
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图 24-1 行 优 先 矩 阵 转 置 。 随 着 算法 遍历 数据 ， 出 现 稀 玖 访问 内 存 的 情况 ， 导 致 处 
理 需 访问 多 个 缓存 行 ， 每 个 缓存 行 中 的 8 个 矩阵 元 素 只 有 1 个 是 有 用 的 


当然 ， 再 一 次 使 用 一 个 缓存 行 时 ， 绥 存 可 以 缩短 数据 访问 延迟 。 例 如 ， 当 交换 矩阵 元 素 
( AoAo) 时 ， 缓存 行 中 数据 {Aois Ao) ial Aoi 被 谈 入 处 理 需 缓存 中 。 奇 顺序 交换 数据 
( AiOA1i, Ain A, $), 则 缓存 行 中 数据 (Aoi, Aqyi+t)s aes Avin? 没有 重用 。 然而 ， 在 处 理 需 交换 
数据 (Aim PAu) 并 且 开 始 交 换 (Agno Aon) 时 ， 缓 存 行 中 第 2 个 元 素 得 到 了 重用 。 如 采 
缓存 行 中 数据 在 下 一 次 数据 访问 中 命中 ， 则 数据 访问 时 间 会 比 直接 从 主 存储 天 中 该 取 数 据 更 短 。 

目 然 地 ， 为 了 使 缓存 行 更 加 有 效 地 工作 ， 算 法 必须 考虑 缓存 的 特点 。 如 有 果 乍 阵 太 二 了 足 
够 大 ， 算 法 顺序 从 Ao 到 4:5 遍历 矩阵 中 的 元 素 ， 则 包含 Aoi 的 缓存 行将 不 会 再 放 和 人 处理 硕 
缓存 中 。 但 是 ， 当 算法 交换 元 素 (Amnon) 时 ， 包 含 元 素 Aoi 的 缓存 行 又 会 重新 被 命中 。 
因此 ， 更 智能 的 做 法 是 当 数 据 还 存在 缓存 中 时 就 应 该 在 下 次 数据 访问 时 重用 。 

为 了 解决 上 面 讨论 的 问题 ， 在 后 续 的 草 节 中 我 们 采用 了 性 能 放 析 工具 。 


24.2 工具 和 方法 
虽然 本 章 目的 是 创造 一 种 可 移植 、 面 向 未 来 的 代码 ， 但 是 软件 工具 和 微 处 理 器 的 演化 可 
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能 会 影响 实验 结果 和 实验 方法 的 使 用 。 为 了 能 够 重 现实 验 结果 ， 下 面 简单 介绍 实验 中 使 用 的 
系统 配置 。 
下 面 的 所 有 实验 都 在 Colfax SXP7450 工作 站 中 完成 ( 见 24.9 47). Colfax SXP7450 拥 
有 一 块 Intel Xeon E5-2630v2 两 路 处 理 器 (共有 12 个 2.6GHz 的 物理 内 核 )， 拥 有 1 块 容量 为 
128GB, 、 频 率 为 1066MHz 的 DDR3 主 存储 器 ， 拥 有 两 块 核 数 为 57、 频 率 为 1.1GHz、 全 局 内 
存 为 6GB 的 Intel Xeon Phi 3120A 协 处 理 器 。 平 台 系 统 为 CentOS Linux 6.5， 系 统 内 核 为 kernel 
2.6.32-431.e15.x86 64 和 MPSS 3.2.3, Intel C++ 编译 器 版 本 为 14.0.2.144(Build 20140120), ži 
析 工 具 版 本 为 Intel VTune Amplifier XE 2013 Update 15(Build 328102), 
实验 中 使 用 带宽 作为 衡量 矩阵 转 置 的 性 能 指标 ， 单 位 是 GB/s， 带 宽 定 义 如 下 : 
ae 2 x size of (double) xn x n 
10° xT 
Hh, n 是 和 矩阵 大 小 ; 系数 2 指 在 矩阵 转 置 过 程 中 每 个 矩阵 元 素 从 主 存储 器 中 分 别 有 读 写 两 
个 过 程 ; size of (double) = 8 字 节 ; BELA 10° 表示 单位 从 B/s 到 GB/s 的 系数 ; 了 是 矩阵 转 置 
过 程 所 消耗 的 时 间 ， 单 位 为 秒 。 带 宽 是 一 种 非常 通用 的 衡量 方式 ， 可 以 方便 将 算法 的 性 能 和 
系统 理论 最 大 集合 〈 比 如， 通过 STREM 基准 测试 ) 做 对 比 。 
实验 中 所 有 性 能 结果 都 具有 相同 的 编译 指令 环境 ， 编 译 参 数 为 “ -03 -g -fopenmp”。 其 
中 参数 “ -03” 表 示 使 用 了 最 高 的 优化 级 别 ， 参 数 “ -g” 艇 入 代码 符号 到 可 执行 文件 中 , 使 
可 执行 文件 支持 YTune 功能 ， 参 数 “ -fopenmp ”链接 Intel OpenMP 并 行 库 。 另 外 ， 参 数 
“-mmic” 指 使 用 了 原生 的 协 处 理 器 配置 。 


24.3 HTT: 初始 的 就 地 转 置 实现 
第 一 步 ， 为 了 得 到 算法 性 能 对 比 的 基准 (从 简单 问题 人 手 )， 图 24-2 使 用 C 语言 构建 方 
阵 的 “就 地 ” 串 行 抢 阵 转 置 算法 。 关 于 本 章 的 算法 源码 ， 请 访问 lotsofcores.com。 


GB/s 


#define FTYPE double 


void Transpose(FTYPE* const A, const int n) { 
for (int j = 0; j « n; j++) 
for (int i = 0; i < j; i++) { 
const FTYPE c = A[i*n + j]; 


A[i*n + j] = A[j*n + il; 
A[j*n + i] = c; 





图 24-2 方 阵 就 地 转 置 的 串 行 实现 


本 章 剩余 部 分 中 ， 我 们 采用 的 转 置 矩阵 大 小 n = 4000。 因 此 在 双 精 度 4000*4000 的 矩阵 
中 ， 和 矩阵 大 小 为 122MB ， 远 大 于 CPU 中 的 30MB RRRA, BAF CPU 末 级 缓存 外 加 协 
ARIES H 28.5MB 二 级 缓存 之 和 。 如 图 24-3 所 示 ， 基 准 测试 过 程 中 包含 多 个 转 置 函数 调用 ， 
这 里 前 两 个 转 置 函数 调用 的 时 间 不 计算 在 内 。 

示例 代码 是 Intel Xeon 处 理 器 和 Intel Xeon Phi 协 处 理 器 平台 下 本 机 模式 下 的 基准 测试 。 
本 机 模式 是 指 该 代码 编译 参数 是 “ -mmic”， 我 们 需要 将 算法 的 可 执行 文件 复制 到 协 处 理 器 
系统 下 执行 ( 见 24.9 节 第 9 条 文献 )。 

图 24-27 是 该 示例 及 其 后 续 优 化 示例 的 平均 性 能 示意 图 。 图 24-2 中 代码 的 运行 性 能 在 
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图 24-27 中 由 “Serial ”标签 标记 。 在 主机 端 ， 算 法 的 带宽 性 能 是 4.3GB/s; 同时 在 协 处 理 需 
端 带宽 性 能 为 0.7GB/s。 


const int nTrials = atoi(argv[2]); 
const int skipTrials - 2; 
for (int iTrial = 0; iTrial < nTrials; iTrial++) { 
// Perform and time the transposition operation 
const double t0 - omp get wtime(); 


Transpose(A, n); 
const double tl = omp get wtime(); 
if (iTrial >= skipTrials) 
t[iTrial] = t1-t0; // Record benchmark result 





图 24-3 忽略 前 两 次 运行 时 间 的 实验 耗 时 统计 


示例 算法 的 性 能 不 但 在 Intel Xeon Phi BEES EI EE Intel Xeon 处 理 右 相形 见 纳 ， 而 且 
算法 的 性 能 的 绝对 值 同样 远 远 不 如 STREAM 基准 测试 (STREAM 基准 测试 套件 是 内 存 带 宽 
性 能 的 行业 参考 )。 在 基准 测试 系统 上 ， 编 译 和 运行 STREAM 的 方法 及 源码 见 24.9 35, WA 
结果 中 ， 处 理 器 (CPU) 带宽 性 能 为 33.SGB/s， 协 处 理 器 获得 了 更 高 的 带宽 性 能 124.8GB/s. 

从 图 24-2 可 以 看 出 ， 示 例 算 法 性 能 较 差 的 原因 是 代码 串 行 部 分 ， 这 意味 着 即使 硬件 文 
持 超 线程 ， 算 法 也 只 能 在 一 个 内 核 上 运行 一 个 线程 。 其 结果 是 ， 该 算法 只 能 利用 一 小 部 分 硬 
件 内 存 市 宽 。 

图 24-2 中 代码 的 串 行 特性 虽然 容易 观察 ， 但 是 其 串 行 瓶颈 在 更 加 复杂 的 代码 中 可 能 更 
加 难以 探测 。 为 此 ， 我 们 构建 了 Intel VTune Amplifier XE (简称 “VTune”) 系统 ， 目 的 是 
在 多 线程 环境 中 检测 算法 的 串 行 化 特征 。 

本 章 中 ，VTune GUI (图 形 用 户 界 面 ) 用 来 收集 和 分 析 性 能 数据 。 在 Linux 系统 中 ， 
VTune GUI 通过 命令 “amplxe-gui” 打 开 。 在 试验 中 ， 根 据 喜 好 或 者 操作 环境 不 同 ， 用 户 同 
样 可 以 选择 VTune 命令 行 界面 ( 见 29.4 节 最 后 一 条 文献 )。 | 

VTune 中 在 “Projects” 标 签 下 存放 了 应 用 程序 分 析 设置 及 结果 数据 。 图 24-4 展示 了 VTune 
GUI 中 一 个 简单 项 目的 项 目 属性 。 其 中 “Application ”表示 可 执行 程序 的 名 称 。 ”Application 
parameters ”的 值 “4000 1000” 是 命令 行 参 数 ， 指 定 了 矩阵 大 小 n = 4000 和 实验 次 数 为 
1000。 程序 必 须 运行 足 够 长 时 间 才 能 有 利于 收集 更 高 质量 的 性 能 数据 ， 因 此 需要 让 程序 运行 
大 量 的 次 数 。 使 用 环境 变量 将 Intel OpenMP 库 引 入 到 系统 中 ,使 系统 实现 OpenMP 线程 在 
对 应 内 核 上 的 映射 并 使 用 同 逻 辑 内 核 一 样 多 的 线程 。 


| Specify and configure your analysis target: C 


b d AIT e. 3 
| Working directory: {mamejaviad amiadimoposes/5à _ Transposition Gems/stens Lj v À | | j 
environment j 


| User-defined variables: ; d 
~ |KMP_AFFINITY=compact; OMP_NUM_THREADS=24; | Modify... || 


图 24-4  VTune 中 配置 项 目 “Transposition on CPU” 
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项 目 完成 配置 后 ， 用 户 从 事先 配置 的 Analysis Type TH 
图 24-5 )。 特 别 有 用 的 分 析 类 型 是 General Exploration, 


能 指标 。 单 击 Start 按钮 启动 该 程序 
中 展示 给 用 户 。 


iii m 


a a rin 


w dal’ G @ |wekome 
* Choose Analysis Type 


AAAA 





| | General Exploration - Sandy Brid: Bridge , ivy Bridge| Copy _ 
YW Algorithm Analysis Analyze general issues affecting the performance of your 


A Basic Hotspots This analysis type is based on the hardware 
A Adv iH | event-based sampling collection. TS TLE Ore CENE 


A Concurrency 

A Locks and Waits 
b i Intel Core 2 Processor, 
P i» Nehalem / Westmere A | 
| 


A Access Contention 
Å Branch Analysis 

4 Client Analysis 

A Core Port Saturation 
A Cycles and uOps 

A Memory Access 
A Port Saturation 





图 24-5 f£ Sandy Bridge CPU 架构 下 启动 General Exploration 


图 24-6 展示 了 结果 界面 和 可 选 的 (如 “Summary”“ Bottom-up” “ Top-down Tree" 4) 
视图 。 用 户 通 过 单 击 窗口 项 部 的 按钮 ,选择 相应 的 视图 。 





图 24-6 Bottom-up 视图 分 析 结果 ， 显 示 了 算法 的 负载 不 均衡 。 单 个 线程 执行 所 有 工作 ， 其 他 线程 空 | 


单 击 “Bottom-up ”视图 弹出 线程 面板 ， 其 中 显示 了 处 理 器 24 个 逻辑 内 核 中 每 个 内 核 
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的 负载 随时 间 线 的 变化 情况 ( 见 Thread 面板 截图 )。24 Worker 条 纹 中 只 有 一 个 存在 黑色 
阴影 区 域 ， 表 明 逻 辑 内 核 中 只 有 一 个 有 效 的 工作 负载 。 对 于 既 包 含 串 行 又 包含 并 行 代 码 的 算 
法 来 说 ， 人 性 能 图 案 可 能 稍 许 不 同 (例如 黑色 条 纹 融 有 斑点 )。 通 过 使 用 不 同 颜色 区 分 串 行 和 
并 行 部 分 ， 可 以 直观 地 用 视觉 衡量 出 串 行 部 分 使 算法 性 能 降低 了 多 少 。 

男 外 ， 也 可 以 运行 特殊 的 分 析 类 型 Concurrency， 以 量化 并 行 的 使 用 情况 。 相 应 的 条 目 
在 VTune 左 侧面 板 的 “Algorithm Analysis" XRF (SLA 24-7 )。 


% Choose Analysis Type 


LA Analysis Type 


1————————— RARE RETREAT STEUERN RUPEE OM: 


Ao he h | concurrency [ em ] 


uM i 
vi Algorithm Analysis | Analyze how your application is using available logical CPUs, | 

A Basic Hotspots | discover where parallelism is incurring synchronization overhead, | 
A anced Hotspots | and identify potential candidates for parallelization. This analysis | 
2 ; type uses user-mode sampling and tracing collection. Press F1 for | 
Alum | more details. 


图 24-7 开始 并 发 性 分 析 





图 24-8 通过 柱状 图 显示 了 在 Summary 视图 下 的 并 发 性 分 析 结 果 ， 显 示 了 一 个 x 值 为 1 
的 条 形 框 ， 即 在 全 部 分 析 时 间 中 只 有 1 个 线程 在 运行 。 对 于 更 加 复杂 的 程序 ， 可 能 会 出 现 多 
个 条 形 框 ,分 别 显示 对 应 的 并 行 阶段 运行 时 间 。 


=% Concurrency Hotspots by Thread Concurrency viewpoint (change) 9 


© Thread Concurrency Histogram 


This histogram represents a breakdown of the Elapsed Time. It visualizes the percentage of the wall time the specific number of threads were running 
simultaneously. Threads are considered running if they are either actually running on a CPU or are in the runnable state in the OS scheduler. 
Essentially, Thread Concurrency is a measurement of the number of threads that were not waiting. Thread Concurrency may be higher than CPU usage 
if threads are in the runnable state and not consuming CPU time. 
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© CPU Usage Histogram 


This histogram represents a breakdown of the Elapsed Time. It visualizes what percentage of the wall time the specific number of CPUs were running 
simultaneously. CPU Usage may be higher than the thread concurrency if a thread is executing code on a CPU while it is logically waiting. 
655 ^ ere io D oe QU 


Elapsed Time 
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图 24-8 Summary 视图 下 的 并 发 性 分 析 结 果 ， 表 明 并 行 利 用 率 差 


24.4 并 行 : 使 用 OpenMP 增加 并 行 度 


BEJA VTune 已 经 三 沁 用 于 识别 串 行 性 ， 现 在 就 该 用 VTune 来 解决 矩阵 转 置 性 能 低 的 问题 了 。 
OpenMP 可 以 工作 在 Intel Xeon Ab gs Intel Xeon Phi 协 处 理 器 中 ， 使 用 OPenMP 可 
以 很 容易 实现 程序 的 并 行 化 。 从 图 24-2 中 可 以 发 现 ， 每 次 j 值 的 迭代 都 是 相互 独立 的 ， 因 
此 可 以 在 j 值 上 使 用 并 行 线 程 分 配 for 循环 。 如 图 24-9 所 示 ， 可 以 简单 通过 在 循环 语句 之 前 
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添加 一 个 “加 ragma OMP ”声明 实现 循环 的 并 行 化 。 


Hdefine FTYPE double 


void Transpose(FTYPE* const A, const int n) { 
#pragma omp parallel for schedule (static) 


const FTYPE c 
A[i*n + j] = 
A[j*n + i] = 





图 24-9 方 阵 束 地 转 置 的 并 行 实现 


图 24-9 中 的 代码 是 实验 过 程 的 第 2 步 ， 本 书 提 供 了 其 对 应 的 源码 实现 。 在 使 用 并 行 代 
码 重 新 运行 基准 测试 后 ， 发 现 带宽 性 能 在 CPU 上 为 28.6GB/s， 在 协 处 理 器 上 为 20.0GB/s( 如 
图 24-27 中 的 “Parallel ”标签 所 示 )， 可 见 并 行 代码 带宽 性 能 相对 于 串 行 版 本 有 显著 提升 。 
图 24-10 和 图 24-11 分 别 显 示 了 General Exploration 和 VTune 并 发 性 分 析 的 和 输出。 
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图 24-10 Bottom-up 视图 下 General Exploration 分 析 结 果 显 示 多 个 CPU 内 核 得 到 充分 利用 


图 24-10 中 时 间 线 充满 了 黑色 阴影 ， 这 表明 所 有 的 内 核 中 都 存在 有 效 的 工作 负载 。 夯 外 
单个 内 核 的 时 间 线 比 并 行 代码 的 时 间 线 更 短 ( 见 x 轴 时 间 标 签 )。 

同 理 ， 图 24-11 所 示 线 程 并 发 直方 图 (顶部 条 形 图 ) 中 ， 仅 在 值 为 24 的 位 置 有 一 个 条 形 
框 ， 这 证 实 了 所 有 的 24 个 内 核 都 运行 了 100% 的 有 效 时 间 。 然 而 ，CPU 使 用 情况 直方 图 有 
多 个 条 形 框 ， 大 部 分 聚焦 在 Ok 区 域 ， 这 表明 内 核 具 有 大 量 的 空闲 时 间 。 人 性 能 分 析 表 明 使 用 
优化 策略 ， 有 可 能 会 进一步 提升 代码 性 能 。 

进一步 提升 转 置 代码 性 能 需要 更 微妙 的 优化 手段 ， 这 将 在 本 章 的 后 续 部 分 继续 讨论 。 
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图 24-11 Summary 视图 下 并 发 性 分 析 结 zm. 第 一 由 图 展示 了 算法 的 高 并 行 性 ， 第 二 幅 图 
展示 了 低 CPU 利用 率 的 算法 ， 其 大 量 时 间 内 空转 是 空闲 的 


24.5 DR: 提高 数据 局 部 性 

相对 于 串 行 代码 ， 通 过 增加 并 行 性 可 以 显著 提高 代码 的 性 能 ， 但 是 并 行 算法 在 协 处 理 需 
上 的 性 能 依旧 不 能 让 人 满意 ， 其 性 能 和 处 理 作 上 的 性 能 差距 达 1.4 倍 。 

为 了 提升 协 处 理 器 上 算法 的 性 能 ， 我 们 需要 在 Intel Xeon Phi 协 处 理 器 上 运行 转 置 代码 
并 使 用 VTune 收集 算法 的 性 能 谢 析 信息 。 | 

在 此 之 前 ， 必 须 配 置 一 个 MIC 架构 的 VTune Jii A “ Transposition on MIC”. KI 24-12 
显示 了 为 Intel Xeon Phi 协 处 理 需 的 执行 配置 本 机 V Tune 项 目的 一 种 方法 。 " Application” 
中 可 执行 的 应 用 程序 是 SSH 的 客户 端 “ ssh”。“ Application parameters” "P mic0 是 ssh iX 
图 登录 的 协 处 理 器 的 主机 名 。 sat “een” sail 了 基准 测试 的 本 机 协 处 理 带 可 执 
行文 件 所 在 的 路 径 。 命 令 行 参数 ”4000 1000” 分 别 指定 矩阵 大 小 及 程序 运行 次 数 。 


Transposition on MIC - Project Properties 
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| Launch Aj Apte len ， | 
| me and wm your analysis ME an application ora tow to » execute. Press F1 foe mae 1 





图 24-12 RI. V Tune JR E BUA AOL RA Ww FA SSH Æ SO ESA IY 
程序 ， 可 执行 文件 作为 其 命令 行 参 数 
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注意 Intel VTune Amplifier XE 可 以 对 Intel Xeon 处 理 器 和 Intel Xeon Phi 协 处 理 器 
上 运行 的 程序 进行 性 能 分 析 。 对 于 第 一 代 Intel Xeon Phi 协 处 理 器 ， 选 择 “Knights Corner 
Architecture ”分 析 类 型 。 对 于 本 机 MIC 程序 ， 同 样 可 以 使 用 应 用 程序 “ssh” 并 作为 命令 
行 参数 传递 需要 测试 的 可 执行 文件 的 名 称 。 

此 外 ， 如 图 24-13 所 示 ， 为 了 在 VTune 中 能 够 看 到 函数 名 称 和 源 代码 ， 对 于 MIC 28 
KJ, 我们 必须 为 VTune 指定 包含 二 进 制 文件 的 目录 名 称 。 


Transposition on MIC - es Properties 


[ Sinaryisymbor s Search |.s 


| Additional Binary and Symbol File Locations | 
|. Specify the possible locations of binary and symbol files. These can be local directories, or | 
| symbol server paths using the form srv*local cache directory*http://address/. Press F1 for more : 


jiils. 


| Ihomejaviacinvopuses/s, _Tansposition-Gems/steps/2 l 





图 24-13 1E VTune WHF, X f BESEOXLEEIE TES £18 RAAPA UNS, GHA 
数 “-g” 编 译 源 代 码 ， 并 为 VTune 指定 主机 中 包含 可 执行 文件 的 目录 


本 机 模式 下 ， 运 行 VTune 分 析 器 之 前 ， 用 户 必 须 复 制 可 执行 文件 和 所 有 依赖 库 到 协 处 
理 需 中 。 本 示例 中 ， 唯 一 需要 复制 到 协 处 理 器 中 的 依赖 库 是 Intel OpenMP FE, Pian, 我们 
将 依赖 库 复 制 到 协 处 理 器 的 mic0:/lib64/ 目录 下 。 相 应 地 ， 也 可 以 使 用 NFS 共享 使 处 理 器 和 
协 处 理 需 共享 相应 的 库 、 可 执行 文件 及 数据 。 更 多 信息 请 参考 24.9 节 第 9 条 文献 。 

配置 项 目 且 本 机 应 用 就 绪 后 ， 分 析 程 序 即 可 启动。 和 主机 一 样 ，General Exploration 分 
析 是 一 个 很 好 的 起 始点 ， 虽 然 这 一 次 是 在 KnightsCorner FAE (BI Intel Xeon Phi 协 处 理 
右上 分 析 )， 如 图 24-14 所 示 。 


General Exploration - Knights Corner Platform 
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图 24-14 在 Intel Xeon Phi DM gs FAY VTune MHF, JAZ General Exploration 分 析 


图 24-15 所 示 是 Summary 视 几 下 的 性 能 训 析 结果 。 通 过 突出 显示 的 性 能 指标 ， 我 们 可 以 
看 出 VTune 在 该 视图 下 的 强大 功能 。 这 里 突出 显示 了 CPI Rate 和 Estimated Latency Impact. 
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* General Exploration Ge! 


® Elapsed Time: 24.401s 


CPU Time: 4530.2735 
Paused Time: 0s 


®© Hardware Metrics 


CPU CLK_ UNHALTED: 
ni 
CPi Rate: ee au EM 

The CP may be too gh Tis could be caused by ses such as memory stalls, instruction starvation, branch misprediction or og latency 
instructions. Explore the other hardware-related metrics to identify what is causing high CPI 

L1 Misses: 2,257,500,000 

L1 Hit Ratio: 0.992 

Estimated Latency impact: CF AEG 
Estimated Latency impact vale is high, which likely indicates that the majority of L data cache misses are not being serviced by the L2 cache. 
smear s pe ien to improving this on the Intel Xeon Phi coprocessor. Data reorganization or traditional techniques to increase 

L1 TLB Miss Ratio: 

L2 TLB Miss Ratio: 

L1 TLB Misses per L2 TLE Miss: 


© Collected Hardware Events 


®© Logical CPU Balance 


This histogram represents a breakdown of overall CPU time by logical CPUs where it was spent. Explore to understand the overall balance of program 
execution over available logical CPUs. 





图 24-15 在 Intel Xeon Phi Pub PEAS FAY VTune JAA, General Exploration 分 析 总 结 


CPI 指标 显示 执行 每 条 指令 平均 需要 多 少 个 周期 ， 它 衡量 延迟 对 性 能 的 影响 。 在 Summary 
视图 下 ，CPI 针对 的 是 单个 线程 上 的 算法 执行 。 在 Intel Xeon Phi Knights Corner 处 理 器 中 ， 
每 个 内 核 具 有 4 个 线程 ， 且 每 个 内 核 都 是 顺序 双 发 射 的 ， 因 此 其 CPI 理论 最 小 值 是 2.0。 高 
CPI 值 表 示 应 用 中 的 时 间 延 迟 较 大 ， 但 对 于 以 内 存 访问 带宽 为 瓶颈 的 应 用 (如 和 矩阵 转 置 )， 这 
CPI 的 影响 较 小 。 事 实 上 ，VTune 中 MIC 架构 下 内 和 存 带宽 高 度 优化 的 STREAM 基准 测试 显 
示 的 CPI 率 大 于 8.2。 

如 图 24-15 所 示 ，Estimated Latency Impact 是 男 一 个 VTune 突出 显示 的 指标 。 该 指标 
在 本 示例 中 非常 重要 。Estimated Latency Impact 可 以 通过 统计 特定 的 数据 得 到 。 特 定 的 数据 
EH, 一 级 缓存 未 命中 ， 二 级 缓存 中 未 缓存 ， 只 能 从 主 存 中 读 取 的 数据 。VTune GUI 中 提示 
了 有 可 能 提升 算法 性 能 的 解决 方法 。 本 示例 中 ， 为 了 提升 软件 整体 性 能 ，VTune 建议 程序 员 
提升 算法 预 取 并 增加 数据 局 部 性 访问 。 

本 示例 适合 采用 提高 数据 局 部 性 的 方法 。 传 统 的 、 简 单 而 有 效 的 局 部 性 优化 方法 即 是 分 
块 。 分 块 法 需要 对 内 存 访 问 进行 重新 排序 一旦 数据 被 取 人 到 缓存 中 ,需要 更 加 及 时 地 在 一 
Mir 
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nie MMC. Ex career eek 20 
码 段 分 别 是 (A) PAREMA, (B) 分 块 循环 准备 ,(C) 分 块 循环 (通过 置换 两 个 循环 
得 到 )。 
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// (A) Unoptimized case: plain nested loops 
for (int i = 0; i < m; i++) 

for (int j = 0; j «n; j++) { 

compute (AI, B[31); 


} 


// (B) The same exact code in a different form: 
// strip-mined loops. This example assumes 
// that rig and n$TILE--0. 
const int TILE - 1; // This value is fine for now 
for (int ii s 0; ii « m; ii += TILE) ( 
for (int i = ii; i < ii + TILE; i++) | 
for (int jj = 0; jj < n; jj += TILE) ( 
for (int j = jj; j < jj + TILE; j++) { 
Compute (A[i], B[jl); 


} 
} 


// (C) Optimized code: strip-mined loops are permuted 
// to achieve better data locality. This is 

// known as loop tiling. 

const int TILE = 16; // Must be chosen empirically 


for (int ii = 0; ii < m; ii += TILE): | 
for (int jj = 0; jj < n; jj += TILE) { 
for (int i = ii; i « ii + TILE; i++) { 
for (int j = jj; j < jj + TILE; j++) { 


Compute (A [i] , BI31I); 


} 


图 24-16 循环 分 块 


在 普通 的 循环 算法 (A) 中 ,在 变量 /中 进行 内 层 循环 迭代 ， 对 应 的 元 素 由 B[ 四 取得 。 
假设 缓存 的 大 小 为 xn， 则 4 和 B 中 元 素 的 大 小 使 得 数组 AS BERI. Dg jM os 
(n-1) ERJ MIN, WR BLO] 则 不 存在 于 缓存 中 。 当 算法 中 增加 i 值 并 在 j 为 0 时 重新 开 
始 时 ， 则 处 理 器 需要 重新 从 主 存 中 读 取 B[0]， 导 致 了 性 能 损失 。 与 此 相反 ， 在 分 块 循环 (CC) 
中 ，B[0] 的 值 在 TILE 迭代 后 可 重用 ， 假 定 TILE 足够 小 ， 则 BO 依旧 会 存储 在 缓存 中 ， 并 
被 命中 。 

在 算法 优化 过 程 中 ， 针 对 不 同 计算 机 架构 和 算法 ，TILE 的 值 是 变化 的 ， 且 TILE 值 应 
该 足够 小 ， 使 数据 访问 能 够 持续 命中 。 但 是 TILE 值 也 有 可 能 有 其 他 限制 EEJ 上 的 内 层 
循环 向 量化 ， 则 最 适用 于 TILE 的 值 应 该 是 SIMD 向 量 长 度 的 整数 倍 )。 例 如 双 精 度 计算 过 
程 中 ，Knights Corner 架构 的 向 量 长 度 是 8， 则 TILE 的 值 必须 是 8 的 倍数 。 

图 24-9 展示 了 和 矩阵 转 置 代码 ， 算 法 分 块 时 必须 考虑 其 他 的 一 些 情况 。 例 如 图 24-9 中 内 
层 循 环 的 上 限 取 决 于 外 层 循环 中 的 变量 值 ， 因 此 分 块 算法 必须 确保 条 件 (j<i)。 其 次 ， 如 果 
无 法 保证 和 矩阵 大 小 n 为 TILE 的 整数 倍 ， 分 块 算法 必须 要 保证 矩阵 数据 访问 不 超 界 。 

综 上 所 述 ， 图 24-17 展示 了 移 阵 转 置 算法 中 的 分 块 版 本 。 图 24-27 中 标记 为 “Tiled” 的 
条 形 框 显示 了 该 算法 的 性 能 。 虽 然 在 CPU 平台 上 性 能 提升 不 是 很 明显 , 但 在 协 处 理 胡 平台 
性 能 提升 达 30%。 

在 VTune 系统 中 ，General Exploration 分 析 确 定 了 使 用 分 块 可 以 提升 算法 在 协 处 理 上 的 
PERE ( 见 图 24-18 )。 在 Summary 视图 下 ，Estimated Latency Impact 显示 的 是 1082， 而 不 是 
优化 前 的 1942 (ILEI 24-15 ) 。 由 于 在 协 处 理 器 上 获得 的 性 能 仍然 低 于 主机 处 理 器 ， 而 且 算 
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法 只 达到 STREAM AMEMA 9E HJ 20%， 进 一 步 优 化 仍然 是 必要 的 。 下 一 节 将 继续 讨论 其 
他 的 VTune 分 析 和 代码 优化 方法 。 


const int TILE = 16; // Empirically chosen tile size 


#pragma omp parallel for schedule(static) 
for (int ii - 0; ii « n; ii «- TILE) ( // Tiling 
for (int jj = 07; jj <= li; jJ += TILE) 4 // Tiling 


// Do not go beyond matrix border 
const int jMax = (jj*«TILE < n ? jj4+TILE : n); 


for (int j = jj; j « jMax; j++) { 


// Do not go beyond main diagonal 
const int iMin = (ii > J ? il : j*1); 


// Do not go beyond matrix border 
const int iMax - 
(11+TILE < n ? ii+TILE : n); 


// Transpose the tile 

for (int i = iMin; i < iMax; i++) { 
const FTYPE c = A[i*n + jl; 
A[i*n + j] A[j*n + i]; 


A[j*n + i] = c; 


* General Exploration General Exploration viewpoint 


© Elapsed Time: 18.975s 


CPU Time: 3842.5645 
Paused Time: 0s 


© Hardware Metrics 


CPU CLK UNHALTED: 4,226,820,000,000 

instructions Retired: ledit 

CPI Rate: M MUSS 
The CPt may be too high. This cid ba en ty RI Such as memory statis, rt DR MM VIUA branch misprediction or long latency 
instructions. Explore the other hardware-related metrics to identify what is causing high CPI 

L1 Misses: 6.003,600,000 

L1 Hit Ratio: 0.977 

Estimated Latency Impact: (cor 101081792 
Estimated Latency impact value is high, which likely indicates that the majority of L1 data cache misses are not being serviced by the L2 cache. 
OO EE EE AE N increase 





图 24-18 ”分 块 代码 在 协 处 理 器 上 的 General Exploration 分 析 结 果 显 示 ， 延 时 虽然 有 所 
减少 ， 但 Estimated Latency Impact 仍然 很 高 


24.6 规范化: 多 版 本 微 内 核 

VTune 有 一 个 非常 实用 的 功能 : 能 够 将 针对 整个 代码 程序 的 分 析 ， 细 化 到 每 一 行 代码 ， 
其 至 是 每 一 条 汇编 指令 。 在 下 面 两 种 情况 下 ， 这 个 功能 将 会 非常 有 用 : 

1. 在 复杂 的 程序 中 ， 它 可 以 让 程序 员 找到 最 耗 时 的 函数 和 代码 行 (热点 )。 

2. 已 经 知道 “热点 ”在 哪里 后 ， 用 户 可 以 查看 对 应 的 汇编 代码 (在 Intel C++ 编译 器 的 
编译 指令 中 增加 “ -S” 选 项 ， 就 可 以 生成 汇编 代码 清单 )。 然 而 ， 查 看 汇编 代码 的 过 程 是 非 
常 困难 的 ， 因 为 对 于 循环 等 语句 ， 编 译 器 会 生成 多 个 不 同 的 分 支 ， 我 们 很 难 分 辨 哪个 分 支 是 
在 运行 时 执行 的 。VTune 中 带 注释 的 汇编 代码 清单 可 以 很 清楚 地 告诉 我 们 哪 一 段 代码 分 支 执 
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行 了 ， 因 为 在 每 一 行 汇 编 代码 的 旁边 都 会 有 其 统计 到 的 执行 时 间 (如 图 24-19 所 示 )。 


= General Exploration 





Block 33: 
lea (&rdí,$r12,2), Neax 
lea (%r9,%r15,1), sebp 


#pragma omp parallel for schedule(sté 
for (ant ii = 0; ii < ^; ii += TILE 
for (int jj = 8; jj <= ii; jj +] 

i 


sovq (Xrdx,Xrbp,8), Wrex | 
movq wril, (&rdx,srbp,8) - 
movq “rex, (%r8,%rax,8) | 15 
lea (%r16,%r15,1), Neck 

movsxd Secx, rcx ` 


const int jMax = (jj+TILE « n 
for (int j = jj; J < jMax; is 


const int iMin = (ii > j 7 ii: 
const int iMax = (ij4TILE < n 7 


for (int i = iMin; i < imax; ie] 
{ 
const FTYPE c = A[i*n + j]; 


| Ali*n + j] = Alj*n + i]; 
"Mien + a) = c; 


HHERMESHMBHBHUHMSUHMHUNHMHSM cy 





图 24-19 VTune Far res 编 代码 的 事件 计数 这 样 就 可 以 识 别 出 
哪些 代码 分 支 执行 得 最 频繁 


为 了 查看 带 注释 的 汇编 代码 清单 ， 程 序 员 需 要 打开 “ Bottom-up” 视 图， 并 且 双 击 所 感 
兴趣 的 函数 。 此 时 ， 该 图 数 的 源 代 码 会 展示 出 来 ， 而 单 击 “Assembly” 按 钮 就 可 以 查看 这 
个 函数 的 汇编 代码 清单 ， 如 图 24-19 所 示 。 

即使 没有 关于 汇编 代码 清单 的 详细 分 析 ， 也 可 以 很 容易 地 发 现 ， 执 行 的 代码 中 许多 指令 
都 有 涉及 行 与 列 之 间 的 数据 交换 。 事 实 上 ， 编 译 器 引入 了 一 系列 “lea” 指 令 ， 用 于 获取 操 
作 数 的 地 址 。 该 汇编 代码 清单 中 还 有 内 存 复制 指令 ， 但 并 非 所 有 的 内 存 复 制 指令 都 用 于 和 矩阵 
数据 交换 。 

图 24-17 是 就 地 方 阵 转 置 算法 的 分 块 实现 。 需 要 注意 的 是 ， 内 层 循环 的 循环 计数 从 
iMIN 开始 到 iMAX 结束 。 大 多 数 情 况 下 ，(iMAX-iMIN) ==TILE， 其 中 , TILE==16。 然 而 ， 
有 时 (靠近 和 矩阵 主 对 角 线 或 边缘 时 )， 循 环 计 数 将 有 可 能 小 于 16。 图 24-17 中 的 代码 通过 增加 
边界 判断 ， 实 现 了 适用 于 多 版 本 的 内 层 
循环 ， 这 样 它 就 可 以 处 理 任意 大 小 的 矩 
阵 。 然 而 ， 在 这 种 情况 下 ， 可 执行 代码 
的 通用 性 往往 会 导致 应 用 程序 性 能 降低 。 

但 是 ， 程 序 员 可 以 在 刚 开 始 编写 代 
码 时 就 考虑 到 多 版 本 情况 ， 这 样 可 以 帮 D - 主 对 角 线 分 块 
助 编译 器 生成 高 效 的 可 执行 代码 ， 其 中 NE wae say 
包含 主要 的 数据 转移 指令 。 编 码 时 考虑 
到 多 版 本 情况 后 ， 我 们 可 以 将 矩阵 分 为 
三 个 区 域 (如 图 24-20 Aras). 图 24-20 ”将 矩阵 分 为 三 个 区 域 ， 以 消除 边界 判断 


HH- 矩阵 元 素 
< _ 主 体 分 块 
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(a) “E(k”, PAY 16x16 分 块 可 以 在 没有 任何 范围 检查 的 情况 下 进行 数据 转 置 。 

(b)“ 主 对 角 线 ”， 处 理 其 中 的 16x 16 分 块 时 需要 将 微 内 核 稍 加 修改 。 

(c)“ 边 缘 ”， 这 是 围绕 矩阵 边界 的 部 分 ， 对 于 这 部 分 ， 需 要 用 各 自 的 “ 非 分 块 ” 微 内 核 
来 处 理 。 然 而 ， 仅 当 和 矩阵 大 小 不 是 TILE==16 的 整数 倍 时 ， 这 个 区 域 才 会 存在 。 

和 矩阵 分 割 后 ， 处 理 不 同 区 域 的 数据 转 置 的 可 执行 代码 都 简化 了 。 这 种 方法 的 C 语言 代码 
实现 如 图 24-21 所 示 。 值 得 注意 的 是 ， 第 一 个 OpenMP 并 行 循 环 中 ， 内 层 j 循环 的 循环 次 数 
是 可 以 在 编译 时 确定 的 ， 即 与 分 块 大 小 相等 。 这 使 得 编译 器 可 以 实现 更 高 效 的 数据 转 置 代码 。 


const int TILE = 16; // Empirically chosen tile size 


// nEven is a multiple of TILE 
const int nEven = n - n$TILE; 


// Complete tiles in each dimension 
const int wTiles = nEven / TILE; 


RN omp parallel 


// The main body tile transposition microkernel 
#pragma omp for schedule(static) 
for (int ii = TILE; ii < nEven; ii += TILE) 
for (int jj = 0; jj < ii; jj += TILE) 
for (int j = jj; J < Jj*TILE; j++) 
for (int i = ii; i < ii+TILE; i++) { 
// Key to performance: the bounds of 
// this loop are known at compile time 
const FTYPE c = A[i*n + j]; 
A[i*n + j] = A[j*n + il]; 
A[j*n + i] = c; 


} 


// Transposing the tiles along the main diagonal 
#pragma omp for schedule(static) 
for (int ii = 0; ii < nEven; ii += TILE) { 
const int jj = ii; 
for (int j = jj; j < jJ*TILE; j++) 
for (int i = ii; i « j; i++) { 
const FTYPE c = A[i*n + jl; 
A[i*n + j] = A[j*n + il]; 
A[j*n + i] = C; 


} 


// Transposing ~~peel'' around the perimeter 
#pragma omp for schedule (static) 
for (int j = 0; j < nEven; j++) 
for (int i = nEven; i < n; i++) { 
const FTYPE c = A[i*n + jl; 
A[i*n + j] = A[j*n + il; 
A[j*n + i] = C; 


) // End of OpenMP parallel region 


// Transposing the bottom-right corner 
for (int j = nEven; j < n; j++) 
for (int i = nEven; i « j; i++) ( 
const FTYPE c = A[i*n + jl; 
A[i*n + j] = A[j*n + il; 
A[j*n + i] = c; 





24-21 多 版 本 、 分 块 的 就 地 方 阵 转 置 算 法 实现 


实际 上 ， 多 版 本 代码 的 基准 测试 表明 : 在 主机 CPU 上 是 29.4GB/s, ZED Ab PERE EZ 
81.2GB/ s。 在 主机 上 ， 人 性 能 只 比 之 前 的 版 本 稍 有 有 提升， 但是， 考虑 到 还 存在 1GB/s 左右 的 
标准 差 (这 里 未 显示 )， 所 以 可 以 说 多 版 本 代码 的 GPU 性 能 相对 优化 前 没有 显著 提升 。 但 是 
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倍 的 性 能 提升 。 

从 VTune 中 的 编译 代码 ( 见 图 24-22) 可 以 看 出 ， 主 体 块 的 指令 流 显 得 更 有 规律 。 大 部 
分 时 间 被 取 用 指令 “movq” 所 占用 ， 指 令 “movq” 可 用 于 复制 四 字数 据 。 


S d 5g PS @ |wecome roo | coo: 一 一 一 
eneral Exploration 
“i By Transpose.ce + 


———— E 


der tint j = j= jj; j<. TILE; fo) HM) | 10.8555 108555| - 
. for (int i = ii: i < ii+TILE; i++) | 

{ 4 
const FTYPE c = Afitn + j]; | 93.9915 
A[i*n + j) = A[j*n + iJ; | 235.8555 
Aljta + i] = c; b i 
) 


2 //Transposing the tiles along thema — 
. 4pragma omp for schedule(static) j 
1 for (int ii = 6; H < nEven; ii += TE — STET 
€ i ye Be A 


i 
for (int j = jj; j < jj*TILE; j++) 
for (int i = ii; i < j; i+) ( | 
const FTYPE c = Ali*n + j); 
— Alisn + j] = A[j*n + il; 
A[j'n + i] = c; | Q9. 
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// Transposing ''peel'' around the 
#pragma omp for schedule(static) 
for (int j = 8; j < nEven; jer) { | 
for (int i = nEven; i < n; i++) { 
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图 24-22 ”和 矩阵 划分 为 三 个 区 域 后 的 矩阵 转 置 编 汇 代码 清单 。 程 序 员 完 成 转 置 微 内 核 的 多 版 本 
实现 后 ， 编 译 需 产生 的 指令 流 变 得 更 有 规律 了 


多 版 本 优化 的 代码 可 能 与 鼓励 抽象 的 代码 风格 相 违背 。 然 而 ， 这 种 做 法 在 高 性 能 计 
算 应 用 中 非常 普遍 。 实 际 上 ， 图 24-17 中 的 代码 相 比 图 24-21 中 的 代码 紧凑 得 多 。 此 外 ， 
图 24-21 中 的 代码 可 能 也 是 不 符合 “教科 书 ” 中 的 做 法 的 。 因 为 它 存 在 大 量 匈 余 代 码 。 然 而 ， 

3 倍 的 显著 性 能 提升 ， 为 元 余 代 码 的 引入 提供 动力 和 理由 ， 因 为 这 些 宛 余 代 码 可 以 协助 编译 

需 产 生 更 高 效 的 可 执行 代码 。 

指导 这 种 情况 的 优化 “经 验 法 则 ”是 使 影响 性 能 的 关键 部 分 (内 层 循环 ) 尽 可 能 越 简单 。 
举例 来 说 ， 数 组 边界 最 好 在 编译 时 就 加 以 确定 。 此 外 ， 如 果 采 用 矢量 方法 ， 则 循环 计数 应 为 
16 的 倍数 。 

在 最 后 一 个 优化 步骤 中 ， 我 们 将 再 次 使 用 VTune 来 诊断 并 解决 关于 并 行 性 不 足 的 性 外 


24.7 AA: 释放 更 多 的 并 行 性 


在 VTune 性 能 分 析 的 帮助 下 ， 一 个 很 容易 想到 的 矩阵 转 置 代码 优化 方法 就 是 “ 预 组织 ” 
程序 的 并 行 粒度 和 分 配 。 
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如 图 24-23 所 示 ， 多 版 本 代码 的 大 多 数 CPU 时 钟 周期 都 消耗 在 libomp5.so E, libiomp5.so 
是 Intel OpenMP 库 的 一 部 分 。 








0.000 


图 24-23 图 24-21 中 代码 CPU 占用 的 “Bottom-up” 视 图。Intel OpenMP E% 4 FH is £183 a] 


在 OpenMP 库 上 花费 过 多 的 时 钟 周期 预示 着 存在 大 量 的 闲置 线程 ， 而 线程 闲置 的 原因 
可 能 是 负载 不 均衡 或 者 同步 所 造成 的 串 行 化 。 纵 观 图 24-21 中 的 代码 ， 可 以 发 现 两 个 问题 : 

1. 物理 线程 间 人 负载 不 均衡 。 转 置 函 数 中 的 第 一 个 并 行 for 循环 的 迭代 次 数 太 少 了 。 对 于 
n = 4000 和 TILE = 16， 该 循环 也 只 有 4000/16 = 250 次 迭代 。Intel Xeon Phi 上 有 240 个 硬 
件 线程 ， 仅 仅 250 个 并 行 线程 很 难 实 现 物理 线程 间 的 负载 均衡 。 

2. RAN AREA HN. HAR S| EE ii 越 小 ， 对 应 的 迭代 ( 即 所 对 应 的 物理 
线程 ) 的 工作 量 也 越 小 。 这 是 由 于 第 二 层 循环 的 终止 条 件 (jj<ii) Al OpenMP 语句 “schedule 
(static)”。 即 使 将 循环 调度 从 “static”( 所 有 线程 分 配 相 同 的 迭代 次 数 ) 换 为 “dynamic” 或 
“guided”( 和 迭代 根据 线程 运行 状态 来 进行 分 配 )， 也 会 因为 问题 1 而 难以 实现 负载 平衡 。 

因为 Intel Xeon Phi 协 处 理 器 上 有 大 量 的 可 用 硬件 线程 ， 所 以 使 得 并 行 性 不 足 成 为 使 用 
MIC 架构 时 所 面临 的 典型 挑战 。 解 决 方案 是 减 小 并 行 粒 度 ， 为 编译 器 和 OpenMP 运行 时 库 
释放 更 多 的 并 行 性 。 

对 于 和 矩阵 转 置 ， 工 作 分 配 的 粒度 是 一 行 块 ， 块 的 数量 取决 于 ii 的 值 ( 如 图 24-24 左 图 
所 示 )， 对 应 的 工作 项 数量 为 O (n/TILE)。 解 决 办 法 是 缩小 工作 分 配 的 粒度 到 单个 块 (如 
图 24-24 右 图 所 示 )， 使 工作 项 的 数量 提升 为 O ((n/TILE)”) 个。 对 于 n= 4000 和 TILE = 16, 
总 共有 62500 个 工作 项 ， 这 足够 让 240 个 物理 线程 都 一 直 处 于 忙碌 状态 。 


vn lp nd mn some 










人 NN 
CE 


AA 
()*g+,- P EM CIR E E 
IR M E R B E. 
GH Un uq Wh Ho 1 WN GOGU GKATED 
7 


GH HH WY Hh WH WH WN 






E Hh WW HW W M E N 
A ND 
2 Ln NN ANY 
I WG NY AAA OO HN 
A WN I I Wh UA TA AA TAL AA TAA 


图 24-24 释放 转 置 代 码 的 并 行 性 。 用 单个 分 块 的 工作 分 配 粒 度 ， 代 替 整 行 的 工作 分 配 粒度 
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图 24-24 (2%) 


为 了 改变 工作 分 配 的 粒度 ， 需 要 创建 一 个 贯穿 整个 并 行 空间 的 单一 索引 到 块 位 置 的 映 
射 。 根 据 图 24-21 所 示 的 分 块 枚 举 过 程 可 知 ， 映 射 过 程 可 能 需要 涉及 整数 除法 和 取 模 运算 。 
一 个 比较 普遍 的 解决 办 法 是 预先 计算 此 映射 ( 预 组 织 )。 提 前 计算 有 两 个 好 处 ， 首 先 ， 它 可 
以 消除 整除 和 取 模 运算 带 来 的 延迟 。 其 次 ， 它 具有 可 扩展 性 ， 即 可 以 简单 地 扩展 到 其 他 更 复 
杂 的 矩阵 遍历 模式 〈 例 如 ，24.9 节 第 1 条 文献 )。 

“ 预 组 织 ” 的 转 置 代 码 如 图 24-25 所 示 。 需 要 注意 的 是 ， 在 调用 主 图 数 Transpose 之 前 ， 
需要 调用 函数 CreateTranspositionPlan 创建 “组 织 ” 数 组 。 在 最 后 一 次 调用 Transpose PR 2X 
Zia, va AA eae DestroyTranspositionPlan 来 释放 “组 织 ” 数 组 空间 。 


const int TILE = 16; // Empirically chosen tile size 


void CreateTranspositionPlan(int* & plan, const int n) ( 


This function must be called prior to 
calling the function Transpose() 

to allocate and fill the array plan[], 
which contains the tile traversal order. 


Number of complete tiles in each dimension 
const int wTiles = n / TILE; 


// Number of complete tiles below the main diagonal 
// in the whole matrix 
const int nTilesParallel - (wTiles-1)*wTiles/2; 


// Order of tile traversal 
plan - (int*) 
malloc(sizeof(int)*(2*nTilesParallel)); 


// Storing tile locations in the plan 
int c = 0; 
for (int ii = 1; ii < wTiles; ii++) 
for (int jj = 0; jj « ii; jj++) { 
plan[2*c + 0] = ii*TILE; 
plan[2*c + 1] = jj*TILE; 
C++ 3 





图 24-25 “ 预 组 织 ” 的 转 置 代 码 : 扩展 并 行 迭 代 空 间 


性 能 测试 证 实 ， 扩 大 迭代 空间 和 提前 计算 “组 织 ” 能 够 显著 提升 转 置 代码 的 性 能 CUL 
图 24-26 ) 。 在 主机 CPU 上 ， 获 得 了 40% 的 性 能 提升 ， 达 到 了 41.4GB/s, MED obese E, 
获得 了 7% 的 性 能 提升 ， 达 到 87.0GB/s ( 见 图 24-27 ) 。 
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void DestroyTranspositionPlan(int* plan) { 


// Free the memory allocated by 
// the function CreateTranspositionPlan() 
free (plan); 


void Transpose(FTYPE* const A, const int n, const int* 


const plan) 


// nEven is a multiple of TILE 
const int nEven = n - n$TILE; 


// Complete tiles in each dimension 
const int wTiles - nEven / TILE; 


// Numer of tiles in the matrix body 


const int nTilesParallel - wTiles*(wTiles - 1)/2; 


pow omp parallel 


// Distribute work with single tile granularity 
#pragma omp for schedule (static) 


for (int k = 0; k < nTilesParallel; k++) { 
// For large matrices, most of the work 
// takes place in this loop. 


// Pull location of the tile from the plan 
const int ii = plan[2*k + 0]; 
const int jj = plan[2*k + 1]; 


// The main tile transposition microkernel 
for (int j = jj; J < jj*TILE; j++) 
for (int i = ii; i « ii+TILE; i++) { 
const FTYPE c = A[i*n + jl; 
A[i*n + j] = A[j*n + il; 
A[j*n + i] = c; 


The rest of the code in function Transpose (...) 
is the same as in Figure 21. That code 


is required to transpose the main diagonal tiles 


and the "peel" around the matrix perimeter 





图 24-25 (£X) 
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图 24-26 Intel Xeon Phi 内 处 理 器 上 图 24-25 所 示 代 码 的 General Exploration 分 析 的 Bottom-up 
视图 。 释 放出 更 多 的 并 行 性 ， 使 得 线程 闲置 减少 ， 即 减少 了 libiomp5.so 的 耗 时 ， 从 
而 获得 了 性 能 上 的 显著 提升 


分 析 VTune 的 性 能 数据 ， 


”是 Transpose 图 数 中 的 并 行 循 环 ， 这 证 明 该 优化 步骤 达到 了 预期 效果 。 


我 们 可 以 发 现 , libiomp5.so 所 占 时 间 大 大 减少 ， 


且 现在 的 “ 热 
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矩阵 转 置 优化 





f 并 行 —— 25h Me 预 组 织 
图 24-27 在 Intel Xeon CPU 和 Intel Xeon Phi 上 ， 和 矩阵 转 置 函 数 在 不 同 优化 阶段 
的 性 能 图 。 性 能 的 理论 峰值 是 STREAM 内 存 带 宽 ， 如 虚线 所 示 
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齐 析 指导 的 就 地 矩阵 转 置 函数 的 优化 过 程 已 经 完成 ， 优 化 结果 在 图 24-27 中 汇总 。 

现在 回顾 本 章 中 执行 的 优化 步骤 。 

1. 矩阵 转 置 函数 最 开始 是 用 简单 的 串 行 代码 实现 的 ( 见 图 24-2 )， 但 是 这 个 版 本 的 代码 
在 Intel Xeon 处 理 器 上 以 及 在 Intel Xeon Phi 处 理 器 上 的 性 能 都 很 差 ( 见 图 24-27 中 的 “PIT 
REHE). MH VTune 分 析 并 发 性 ， 我 们 可 以 发 现 ， 缺 乏 并 行 性 是 性 能 糟糕 的 原因 。 

2. 通过 OpenMP 的 编译 制导 语句 实现 并 行 化 (如 图 24-9 所 示 )， 性 能 显著 提升 ， 但 还 
远 未 发 挥 出 MIC 架构 ( 见 图 24-27 中 的 “并 行 ” 条 形 框 ) 的 能 力 。 协 处 理 副 上 VTune 的 
General Exploration 分 析 结 果 显 示 是 访 存 延迟 导致 的 这 一 情况 。 

3. 通过 循环 分 块 ( 见 图 24-17 )， 提 高 数据 局 部 性 ， 从 而 降低 访 存 延迟 的 影响 。 协 处 理 
器 上 的 代码 性 能 得 到 了 提升 ， 但 仍 落 后 于 CPU ( 见 图 24-27 中 的 “分 块 ” 条 形 框 )。 通 过 
VTune 观察 函数 的 汇编 代码 发 现 ， 函 数 的 内 层 循环 是 在 运行 时 确定 矩阵 边界 的 ， 为 了 保持 通 
用 性 ， 编 译 器 生成 的 汇编 代码 不 得 不 很 复杂 。 

4. 多 版 本 C 语言 代码 的 实现 ( 见 图 24-21 ) 解决 了 内 层 循环 中 的 这 个 问题 。 这 使 得 编 
译 器 可 以 将 内 层 循 环 的 数据 转 置 规范 化 ， 从 而 使 Intel Xeon Phi 协 处 理 器 的 性 能 超过 了 主机 
( 见 图 24-27 中 的 “规范 化 ”条 形 框 )。 

5. 多 版 本 代码 的 “Bottom-up” 视 图 显示 ， 函 数 的 瓶颈 在 于 OpenMP PE. TE OpenMP 库 
中 花费 大 量 时 间 的 原因 是 有 限 的 并 行 迭代 空间 。 因 为 有 限 的 并 行 迭 代 空 间 会 导致 负载 不 平 
衡 ， 造 成 线程 之 间 相 互 等 待 。 通 过 “ 预 组 织 ”， 将 并 行 的 粒度 从 一 排 块 降 到 单个 块 ( 见 图 24- 
25) 后 ， 处 理 器 和 协 处 理 器 〈 见 图 24-27 中 的 “ 预 组 织 ” 条 形 框 ) 上 的 这 个 问题 都 得 到 了 解 
决 。 此 时 ，VTune 的 报告 显示 目前 的 “热点 ”是 数据 转 置 循环 ， 这 证 明 该 优化 步骤 达到 了 预 
期 效果 。 

与 STREAM 基准 测试 的 内 存 带 宽 相 比 ， 在 两 个 平台 (处 理 器 和 协 处 理 器 ) b. 最终 取 
得 的 性 能 转 置 代码 分 别 达到 了 STREAM 带宽 的 77% 和 70%。STREAM 是 简单 的 复合 基准 
测试 ， 用 于 衡量 4 个 简单 的 向 量 内 核 的 可 持续 性 内 存 带 宽 以 及 相应 的 计算 速率 。 精 心 优化 的 
STREAMS 带宽 通常 精确 代表 平台 最 大 的 可 持续 性 内 存 带 宽 。 所 以 ， 能 够 达到 7096 已 经 是 
非常 显著 的 成 果 。 
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本 应 用 还 可 以 进一步 优化 。" tuning knob” 可 以 通过 软件 预 取 进一步 提高 性 能 。 在 Intel 
Xeon Phi 协 处 理 器 上 ， 对 于 从 内 存 到 2 级 缓存 的 数据 转移 ， 软 件 预 取 可 以 作为 对 硬件 预 取 的 
补充 。 但 是 对 于 从 2 级 缓存 到 1 级 缓存 的 数据 转移 ， 只 有 软件 预 取 一 种 方式 。 通 常 ， 编 译 般 
会 评估 并 在 可 执行 代码 中 实现 预 取 。 然 而 ， 程 序 员 也 可 以 通过 使 用 #pragma (no) prefetch 和 
编译 器 参数 -opt-prefetch-distance 修改 预 取 行为 。 男 外 ， 还 可 以 在 代码 中 显 式 调用 预 取 内 置 
函数 来 修改 预 取 行为 。 这 种 优化 是 与 环境 实现 相关 的 ， 不 能 直接 扩展 到 Intel Xeon Phi 系列 
之 后 的 产品 ， 如 下 一 代 代 号 为 Knights Landing 的 产品 。 

与 此 相反 ， 基 于 高 级 编程 语言 的 可 移植 的 、 面 回 未 来 的 优化 方法 ， 使 程序 在 协 处 理 需 上 
相 比 处 理 器 获得 了 2.2 倍 的 加 速 比 ， 并 且 达 到 了 理论 最 佳 性 能 的 70% 以 上 。 

本 章 还 证 明 ， 在 优化 的 MIC 架构 上 使 用 性 能 放 析 工具 〈 如 Intel VTune Amplifier XE) 
能 够 一 举 两 得 。 首 先 ， 它 可 以 用 于 检测 应 用 程序 的 “热点 ”( 甚 至 在 汇编 指令 层 ， 识 别 哪 些 分 
支 在 运行 时 执行 )。 其 次 ，VTune 还 计算 整体 性 能 指标 ， 如 时 延 的 影响 、 缓 人 存 合 中 率 、 回 量 
指令 利用 情况 等 ， 并 提出 代码 改进 方 癌 。 


24.9 更 多 信息 
下 面 是 本 章 中 提 及 的 一 些 扩展 阅读 资料 : 


e Vladimirov, A., 2013. Multithreaded Transposition of Square Matrices with Common Code 
for Intel Xeon Processors and Intel Xeon Phi Coprocessors. Colfax Research. http:// 
research. colfaxinternational.com/post/2013/08/12/Trans-7110.aspx. 

e Frigo, M., Johnson, S., 2005. The design and implementation of FFTW3. Proc. IEEE 
93(2), 216-231. http://www.fftw.org/fftw-paper-ieee.pdf. 

e Sung, I.-J., et al., 2014. In-place transposition of rectangular matrices on accelerators. In: 
PPoPP, pp. 207-218. http://dx.doi.org/10.1145/2555243.2555266. 

e Pen, U.-L., et al., A free, fast, simple and efficient total variation diminishing magnetohy- 
drodynamic code. Astrophys. J. Suppl. 149, 447. http://dx.doi.org/10.1086/378771. 

e STREAM 基准 测试 集 源 码 : http://www.cs.virginia.edu/stream/, 

e 在 Intel Xeon Phi 协 处 理 器 上 编译 、 执 行 STREAM 的 指令 https://software.intel.com/ 
en-us/articles/optimizing-memory-bandwidth-on-stream-triad. 

e Colfax International, 2013. Parallel Programming and Optimization with Intel Xeon Phi 
Coprocessors. ISBN-10 0-9885234-1-8|ISBN-13 978-0-9885234-1-8. http://www.colfax- 
intl.com/ nd/xeonphi/book.aspx. 

e Colfax SXP7450 workstation specifications. http://www.colfax-intl.com/nd/workstations/ 
sxp7450.aspx. 

e Intel VTune Parallel Amplifier online documentation. https://software.intel.com/en-us/ 
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本 章 的 重点 是 在 由 Intel Xeon 处 理 器 以 及 Intel Xeon Phi 协 处 理 器 组 成 的 异 构 集群 环境 下 
讨论 消息 传递 接口 (MPI) 应 用 程序 的 负载 均衡 问题 ， 并 用 金融 业 中 亚 式 期 权 回报 计算 作为 应 
用 实例 。 我 们 将 会 考虑 三 种 情况 : 非 均 衡 的 对 称 MPI 代码 ， 基 于 预先 计算 出 的 集群 组 件 性 能 
而 实现 的 手动 均衡 ， 以 及 “老板 - 员工 ”模式 〈 也 称 为 主 /从 通信 模式 ) 下 的 动态 负载 均衡 。 


25.1 亚 式 期 权 定价 


期 权 是 一 种 允许 一 方 ( 称 为 受益 人 ) KA (ARAK) 或 卖 出 (看 跌 期 权 ) 的 合同 。 在 将 
来 的 某 一 天 (期 权 到 期 )， 股 票 市 场 的 资产 会 以 在 合同 签订 时 一 致 同意 的 执行 价格 从 为 一 方 
流出 或 流入 另 一 方 。 购 买 合 同 称 为 看 涨 期 权 ， 而 卖 出 合同 称 为 看 跌 期 权 。 不 同 于 期 货 合 同 ， 
期 权 赋予 受益 人 选择 是 否 行使 该 交易 的 权利 。 这 种 选择 一 般 由 期 权 到 期 时 资产 的 市 场 价格 而 
定 。 例 如 ， 如 果 在 期 权 到 期 日 ， 该 资产 的 股票 市 场 价格 比 期 权 合同 中 的 价格 高 ， 受 益 人 将 选 
择 从 让 与 人 购买 资产 ， 并 在 市 场 上 将 其 卖 出 ， 这 将 产生 一 个 名 为 回报 的 利润 。 和 否则， 受益 人 
不 会 交易 期 权 ， 但 让 与 人 获得 期 权 费 。 有 一 个 期 权 的 种 类 称 为 亚 式 期 权 ， 它 的 特征 是 回报 是 
基于 资产 的 平均 价格 (算术 或 几何 平均 ) 而 计算 的 ， 并 在 预先 安排 的 实例 上 进行 采样 。 这 减 
少 了 市 场 波动 和 短期 市 场 操 纵 所 市 来 的 风险 。 

为 了 进行 风险 分 析 以 及 对 亚 式 期 权 定 价 ， 可 以 使 用 蒙特 卡 罗 ( MC) 模拟 方法 。 在 该 方 
法 中 ， 基 于 可 用 的 资产 波动 信息 对 资产 价格 的 多 个 随机 历史 进行 模拟 。 

变量 S(t) 是 期 权 的 潜在 资产 价格 ， 并 假定 价格 按 随机 方程 随时 间 变 化 : 

dS (t) = uS(t)dt + oS (t)aB(t) 
在 此 公式 中 , /是 资产 的 偏差 ，c 是 期 权 的 波动 率 ，B (1) 表示 一 个 标准 的 布朗 运动 。 
这 种 随机 微分 方程 的 解 可 以 写成 : 


2 
ee is 


S(t,) ion S (t, , 4 
其 中 , x 是 具有 零 均 值 以 及 单位 标准 偏差 的 正 态 分 布 随机 变量 ， 并 且 At ti- tae 
为 了 计算 该 资产 的 亚 式 期 权 回报 ， 资 产 价格 是 在 到 期 时 间 了 内 六 个 时 刻下 的 平均 价格 : 


9). = SH) 


(S) 。 ces $ tog ( ) 


以 上 分 别 为 算术 均值 和 几何 均值 ， 其 中 t= Tx i/(N-1). AOE K MARR RAR 
期 权 所 对 应 的 回报 是 : 
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P =e" max {0;K -(s)] 


put 


P =e" max 40;(S)— KJ 


其 中 ， 根 据 合 同 ，<S> 可 以 是 «Suus SE «So. r 为 无 风险 利率 。 

在 特定 参数 组 合 1S, K, R, u, V, T, NY 以 及 平均 规则 (算术 平均 或 几何 平均 ) F, 
可 以 采用 MC 模拟 从 数值 上 决定 亚 式 期 权 的 数学 期 望 。 该 模拟 可 以 发 出 MAS (大量 的 ) 随机 
路 径 ， 其 中 每 条 路 径 在 1= 0 以 及 1=T 间 根据 上 述 随机 方程 的 解 随 机 产生 期 权 价 格 ， 并 计算 
NN 个 时 间 点 的 均值 。 这 些 均值 随后 用 来 计算 看 涨 或 看 跌 期 权 回 报 。 最 后 ， 对 这 些 在 M 条 随 
机 路 径 上 的 回报 求 均值 ， 从 而 得 到 MC 估计 的 数学 期 望 。 


25.2 ”应 用 设计 


MC 方法 是 一 种 对 选 定 系统 的 状态 空间 进行 抽样 的 重要 工具 。 它 是 一 种 易 并 行 问题 ， 因 
为 可 以 在 大 量 计算 单元 上 同时 产生 许多 独立 的 随机 进程 ， 且 只 需要 在 计算 结束 执行 一 个 归 约 
操作 以 收集 那些 独立 路 径 的 分 布 。 此 外 ， 每 个 生成 路 径 的 资产 价格 是 在 过 期 时 间 了 内 个 
时 刻 的 均值 ， 如 前 一 节 所 示 。 因 此 ， 相 同 的 算术 运算 可 以 应 用 到 许多 同时 随机 产生 的 路 径 ， 
因此 可 以 利用 单 指令 多 数据 (SIMD) 的 思想 来 完成 该 计算 。 因 此 ， 用 于 计算 亚 期 权 定价 分 
布 的 MC 方法 很 容易 在 多 个 层次 进行 并 行 化 ,包括 利用 回 量 处 理 单 元 (VPU)、 多 线程 ， 甚 
至 利用 集群 环境 下 的 多 人 台 机 需 CUL] 25-1). 


数据 并 行 性 
线程 并 行 性 





MPI 


- Xeon Phi 协 处 理 器 A Xeon Phi 协 处 理 器 人 





图 25-1 三 个 层次 的 并 行 


Intel 集成 众 核 (MIC) 架构 将 众多 的 Intel 处 理 需 内 核 集成 到 一 个 芯片 上 。 每 个 Intel Xeon 
Phi 7XXX 协 处 理 需 包含 61 个 物理 内 核 ， 每 个 内 核 拥 有 4 个 硬件 线程 和 一 个 VPU。 独 立 的 
并 行 数据 可 由 VPU 上 的 SIMD 指令 处 理 (图 25-1 ; 数据 并 行 )。 对 于 每 个 Intel Xeon Phi B? 
处 理 锅 ， 并 行 的 任务 /指令 可 以 分 配 在 244 个 (61 4% x4 个 硬件 线程 ) 逻辑 线程 (图 25-1 ; 
线程 并 行 ) LE. Intel Xeon 4b HE 2$ E AY AVX 指令 集 拥 有 256 位 的 癌 量 寄 存 器 。 对 于 Intel 
Xeon Phi 协 处 理 器 ， 向 量 寄存 器 的 大 小 是 512 位 。 这 可 以 将 多 达 16 个 单 精 度 浮 点 数 或 32 位 
短 整 数 ， 以 及 8 个 双 精 度 浮 点 数 或 64 位 长 整数 打包 到 一 个 向 量 寄存 器 中 ， 并 对 其 同时 进行 
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操作 。 对 于 计算 密集 型 应 用 ， 多 个 协 处理 器 以 及 主 处 理 器 均 可 用 于 计算 。 而 计算 集群 中 设备 
和 广 点 之 间 的 通信 可 以 通过 MPI 实现 。 

为 了 实现 高 性 能 的 亚 式 期 权 定 价 计算 ， 应 用 程序 代码 设计 需要 更 好 地 利用 数据 和 线程 并 
行 性 。 这 将 会 使 用 Intel Xeon Phi 上 的 宽 向 量 寄 存 器 ， 并 且 也 会 将 这 些 并 行 计算 划分 到 众多 
内 核 上 。 这 可 以 通过 两 个 藤 套 的 for 循环 实现 。 外 层 循环 通过 线程 并 行 库 扩 展 到 多 个 内 核 
上 ， 而 内 层 循环 通过 Intel C/C++ 编译 咒 实 现 目 动向 量化 ， 其 中 自动 向 量化 是 在 编译 器 -02 
(默认 的 ) 优化 选项 中 所 开启 的 一 种 优化 技术 。 

图 25-2 中 的 源 代码 显示 了 外 层 i 循环 上 的 OpenMP parallel for 编译 制导 语句 ， 
它 将 循环 迭代 分 布 到 由 OpenMP 初始 化 的 所 有 可 用 线程 上 。 内 层 的 三 个 k 循 环 各 自 的 迭代 
次 数 为 vecSize， 并 与 向 量 寄存 器 大 小 成 比例 ， 这 将 被 编译 器 自动 向 量化 。 随 机 数 生 成 器 
的 Intel Math Kernel Library 实现 也 采用 了 回 量 指令 。 


/* The i-loop is thread-parallel, i.e., 
distributed across the processor cores */ 
#pragma omp parallel for schedule (guided) \ 

reduction(+: payoff arithm put) 
for (int i = 0; i < nPaths/vecSize; i++) { 
for (int j = 1; j < nIntervals; j++) 
/* Intel MKL random number generator */ 
vsRngGaussian( 
VSL RNG METHOD GAUSSIAN BOXMULLER, 
stream, vec size, rands, 0.0f, 1.0f); 
/* The k-loop is data-parallel thanks to 
automatic vectorization by the compiler */ 
for (int k = 0; k < vecSize; k++) | 
spot prices[k] *- 
exp2f(drift + vol*rands[k]); 
sumsm[k] += spot prices[k]; 


for (int k = 0; k < vecSize; k++) { 
arithm mean put[k] = 
K - (sumsm[k] * recipIntervals); 
if (arithm mean put[k] < 0.0f) 
arithm mean put[k] = 0.0f; 


/* Reduction across vector lanes and across 
OpenMP threads is automatically implemented 
by the compiler */ 

for (int k = 0; k « vecSize; k++) 
payoff arithm put += arithm mean put [k] * 
expf (-r*T)/(float)nPaths; 





图 25-2 ” 亚 式 期 权 定价 计算 的 计算 密集 部 分 的 代码 


多 个 向 量 通 道 以 及 全 部 OpenMP 线程 上 的 最 终结 果 归 约 是 通过 编译 器 以 及 OpenMP JA 
中 的 归 约 操作 自动 执行 的 。 因 此 ， 基 于 数据 并 行 的 亚 式 期 权 回 报 的 MC 计算 可 以 扩展 到 众多 
WAI VPU 上 ， 且 同时 对 多 个 独立 的 向 量 通道 进行 操作 。 

下 一 节 将 讨论 如 何 通 过 将 计算 参数 (执行 价格 ) 集 分 发 到 多 个 计算 单元 (处理 器 以 及 协 
处 理 硕 ) 上 实现 另 一 个 层次 的 并 行 化 。 


25.3 ” 异 构 集群 中 的 同步 


在 MPI 通信 模型 中 ， 多 台 机 器 和 设备 可 以 是 分 布 内 存 架构 ， 并 将 它们 组 合 起 来 运行 一 
个 并 行 MPI 应 用 程序 ， 在 集群 环境 中 将 应 用 程序 尽 可 能 地 在 可 用 的 计算 设备 上 进行 扩展 。 
这 个 高 层次 的 MPI 并 行 需要 对 多 个 设备 上 多 进程 之 间 的 通信 进行 管理 ， 但 不 提供 任何 自动 
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的 异 构 集 群 环境 中 ， 工 作 负 载 均 衡 是 一 个 十 分 重要 的 问题 。 

在 最 初 设计 的 应 用 程序 (参见 图 25-3) 中 ，100 个 执行 价格 (nStrikes) 被 平均 分 配 
到 所 有 MPI 序列 中 。 这 些 计算 执行 nCalculations=10 次 ， 并 在 每 次 计算 步骤 后 有 一 个 
显 式 的 MPI_Barzie 进行 同步 。 需 要 注意 的 是 ，Intel Xeon Phi 协 处 理 器 生成 和 计算 对 应 
的 亚 式 期 权 定 价值 的 速度 比 两 个 Intel Xeon 处 理 融 要 快 ， 这 导致 协 处 理 需 空转 且 效 率 只 有 
79%， 如 图 25-5 的 应 用 程序 输出 所 示 。 


for (int iCalc-0; iCalc < nCalculations; iCalc++) { 

const int nStrikes - 100; 

const float strikeMin - 10.0f 

const float strikeMax - 20.0f 

for (int iStrike - myRank*nStrikes/(float)mpiWSize; 
iStrike < (myRank+1)* nStrikes/(float)mpiWSize; 
iStrike++) 

const float K = strikeMin + (strikeMax - strikeMin) * 

(float)iStrike / (float) (nStrikes - 1); 


MPI Barrier(MPI COMM WORLD); 





图 25-3” 非 均衡 的 工作 负载 分 配 的 代码 清单 


下 一 节 将 集中 讨论 MPI 应 用 程序 的 两 个 优化 方面 。 

e 不 均匀 的 工作 负载 分 配 (或 负载 不 均衡 ) 导致 一 些 MPI 序列 空转 。 

e 查找 通信 瓶颈 ， 即 延迟 执行 的 代码 段 。 

为 实现 上 述 优化 技术 ， 我 们 将 使 用 Intel 跟踪 分 析 器 与 采集 天 (ITAC)， 以 及 一 个 MPI 
通信 的 可 视 化 和 性 能 分 析 工 具 ( 它 是 Intel Cluster Studio 企业 版 的 一 部 分 )。 ITAC 提供 了 一 
种 方便 的 方法 来 测试 和 分 析 MPI 通信 并 找到 可 提升 性 能 的 地 方 。 


25.4 通过 1TAC 寻找 性 能 瓶颈 

ITAC 的 两 个 构件 Intel FREER KEE AS (ITC) 和 Intel HRA AT AE (ITA) 一 一 会 用 来 收 
集 和 分 析 MPI 代码 示例 的 跟踪 数据 。ITC 库 的 输出 结构 包括 MPI 参数 记录 以 及 所 有 函数 调 
用 以 及 MPI 通信 (包括 用 于 同步 等 待 的 时 间 ) 的 时 间 记 录 。 这 些 MPI 应 用 程序 的 空转 ( 例 
如 ， 等 待 同步 所 花费 的 时 间 ) 是 性 能 提升 的 第 一 候选 。 

在 用 户 的 MPI 应 用 程序 中 使 用 ITC 库 的 一 个 简单 方法 是 ， 在 运行 时 加 载 ITC 库 并 指定 
一 个 额外 的 -trace 标记 作为 mpirun 脚本 执行 的 参数 。ITC 库 默认 为 每 个 MPI 进程 单独 
生成 一 个 跟踪 文件 ， 但 是 输出 文件 的 格式 可 由 环境 变量 控制 。 例 如 ， 多 个 跟踪 输出 可 通过 
ITC 组 合成 一 个 包含 所 有 MPI 应 用 进程 执行 信息 的 跟踪 文件 。 这 个 (或 者 这 些 ) 文件 在 用 户 
应 用 程序 运行 结束 时 由 ITC 生成， 之 后 可 以 在 ITA 中 进行 分 析 。 


25.5 建立 ITAC 


一 个 异 构 集 群 环境 中 可 以 包含 具有 不 同 带宽 和 计算 能 力 的 处 理 器 和 设备 。 对 称 的 MPI 
应 用 程序 会 将 相同 的 工作 负载 分 配 到 应 用 程序 的 所 的 参与 者 中 ， 这 可 能 会 导致 负载 不 均衡 ， 
这 是 因为 在 具有 较 高 计算 性 能 的 设备 上 ， 程 序 的 执行 时 间 可 能 会 较 短 。MPI 同步 事件 会 使 负 
载 不 均衡 显现 出 来 ， 这 是 因为 高 性 能 的 设备 在 等 待 较 慢 设备 时 会 闲置 。ITAC 可 以 将 MPI 通 





332 525 * 


信 可 视 化 。 当 一 些 MPI 序列 需要 等 待 大 量 时 间 来 与 那些 异 构 集 群 中 执行 速度 较 慢 的 设备 进 
行 同步 时 ，ITAC 可 以 指出 这 些 情况 。 
收集 跟踪 信息 前 ， 用 户 需 要 用 以 下 脚本 为 MPI 以 及 加 载 ITC 库 配 置 环境 : 


source /opt/intel/impi/4.1.3.048/intel64/mpivars.sh 
source /opt/intel/itac/8.1.4.0.45/intel64/itacvars.sh 


ITC 采用 结构 化 跟踪 文件 ( STF) 格式 来 收集 每 个 MPI 进程 的 MPI 通信 时 间 记 录 。 为 了 
方便 起 见 ， 可 以 通过 设置 以 下 环境 变量 使 ITC 将 所 有 数据 合并 到 一 个 跟踪 文件 中 : 


export VT LOGFILE FORMAT-singlestf 


IERT, HP KI MPI 应 用 程序 已 准备 就 绪 。 之 后 会 将 跟踪 数据 收集 到 单个 文件 中 。 
启动 对 MIC 架构 的 支持 需要 使 用 三 个 Intel MPI 环境 变量 ,将 TCP/IP 设置 为 通信 协议 , 
并 根据 对 应 的 OpenMP 绑 定 策略 将 MPI 进程 进行 绑 定 : 


export I MPI MIC=1 
export I MPI FABRICS-tcp 
export I MPI PIN DOMAIN-omp 


下 面 的 执行 命令 将 在 machines-HETEROGENEOUS 文件 所 指定 的 设备 上 运行 MC MX 
期 权 和 定价 计算 ， 其 中 每 个 MPI 进程 运行 在 一 个 设备 上 。 由 于 使 用 了 -trace 标记 ， 因 此 会 
生成 一 个 包含 该 应 用 所 调用 的 全 部 MPI 函数 的 时 间 信 息 的 跟踪 文件 。 


mpirun -trace -machinefile machines-HETEROGENEOUS \ 
-env I MPI PIN-0 -/options &» results.txt 


machine-HETEROGENEOUS 文件 的 内 容 包括 主要 节点 的 主机 名 以 及 相应 的 Intel Xeon 
Phi 协 处 理 天 的 主机 名 : 


c001-n003 
c001-n003-micO0 
c001-n003-micl 


最 后 ，ITA 可 以 用 来 打开 生成 的 单个 跟踪 文件 并 开始 分 析 : 


traceanalyzer options.single.stf 


在 下 一 节 中 ， 我 们 将 看 到 通过 ITAC 对 MPI 通信 进行 代码 优化 以 及 可 视 化 的 例子 。 


25.6 AFL ay MPI 运行 


图 25-4 显示 了 ITA 默认 的 图 形 用 户 界面 视图 。 它 包含 跟踪 的 时 间 间 隔 、MPI 函数 调用 
的 时 间 表 ， 以 及 全 部 MPI 进程 的 总 执行 /通信 时 间 信 息 。 


oe Ee EUN 
d Le oeeugd E | 


| CallTree | Call Graph | 
vi 





Group Application 114.553» MIN 132.71 s 
Group MP. 18.1226 s W 18.1226 s 


图 25-4 Intel RERI rss: 默认 的 图 形 用 户 界 面 视图 





图 25-4 中 “ Group Application ”表示 全 部 MPI 进程 执行 时 间 的 总 和 。 为 了 方便 讨论 ， 
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我 们 将 认为 这 是 花费 在 有 用 计算 上 的 时 间 。 * Group MPI” 收 集 所 有 MPI 序列 在 通信 以 及 同 
步 方 面 所 导致 的 空闲 时 间 间 隔 。 因 此 ， 为 了 达到 更 好 的 整体 性 能 ， 该 数量 应 尽 可 能 小 。 

这 种 特殊 的 MPI 运行 使 用 了 一 个 包含 两 插 模 8 核 Intel Xeon E5-2687W v2 处 理 器 的 计算 
节点 (主机 名 c001-n003)， 开 启 了 超 线程 ， 且 两 个 处 理 器 同时 由 MPI 的 rank 0 进程 使 
用 。 内 存 总 量 为 128 GB， 其 中 包含 8 个 1600 MHz 的 16GB 的 模块 。 系 统 中 安装 了 4 个 拥有 
16GB GDDRS 内 存 的 Intel Xeon Phi COPRQ-7120 被 动 冷却 协 处 理 器 ,但 只 有 前 两 个 用 于 计 
算 ， 日 分 别 运行 MPI 的 rank 1 以 及 rank 2 进程 。 操 作 系 统 是 CentOS 6.5, Linux 内 核 为 
2.6.32-431.e16.x86 64, MPSS 版 本 是 3.2.3, MPI 版 本 是 4.1.3.048, ITAC 版 本 是 8.1.4.0.45。 

从 Flat Profile 切换 到 Load Balance 可 以 显示 每 个 MPI 进程 的 执行 时 间 ， 以 及 每 个 进程 
花费 在 MPI 通信 以 及 同步 上 的 时 间 〈 见 图 25-5 ) 。 





图 25-5 ITAC: 负载 均衡 视图 。 三 个 执行 亚 式 期 权 定 价 的 MPI 进程 分 别 
运行 在 主机 以 及 两 个 Intel Xeon Phi 协 处 理 器 上 


总 执行 时 间 (显示 在 TTotal 列 ) 中 的 44.3s 用 在 进程 1 以 及 进程 2 运行 的 协 处 理 器 上 ， 
HRA 35.3s 花费 在 每 个 进程 的 有 用 计算 上 ,平均 有 9.1s 用 在 MPI 通信 以 及 等 待 上 (分别 对 
应 于 Group Application 以 及 Group MPI 的 Tself 列 )。 

在 应 用 程序 的 输出 〈 见 图 25-6 ) 中 可 以 发 现 同样 的 比例 。 第 一 列 包含 MPI 进程 所 运行 
设备 的 主机 名 。Performance 列表 示 设 备 每 秒 产生 的 随机 路 径 数 。 最 后 的 Effic. 列 显 示 有 用 
计算 时 间 与 负载 不 均衡 导致 的 MPI 通信 空闲 时 间 ， 以 及 三 种 工作 设备 之 间 的 同步 时 间 的 比 
值 。Net performance 是 全 部 路 径 与 全 部 计算 时 间 (包含 进程 的 空闲 时 间 ) 的 比值 。 因 此 ， 网 
络 性 能 总 是 比 单个 设备 性 能 的 总 和 小 ， 并 且 只 有 在 完美 的 负载 均衡 下 才 会 相等 。 


Worker Share Performance  Effic. 
c001-n003 34.0% 8.19e+06 100.0% 
c001-n003-micO 33.0% 1.06e+07 77.3% 


c001-n003-micl 33.0% 1.05e+07 78.1% 
# Calculation 7 of 10 took 4.356 seconds 
# Net performance: 2.41e+07 paths/second 


图 25-6 不 均衡 的 亚 式 期 权 定 价 MPI 运行 的 输出 结果 片段 


默认 情况 下 ,ITAC 使 用 MPI 进程 编程 (例如 ,Process 2) 来 显示 执行 时 间 的 统计 数据 。 

可 以 更 改组 名 称 为 主机 名 ， 方 法 是 单 击 菜 单 Advanced 一 Process Aggregation， 从 列表 
中 选择 AuNodes， 然 后 单 击 Application 或 OK 按钮 ( 见 图 25-7 ) 。 

以 上 操作 的 结果 如 图 25-8 所 示 ， 在 主机 c001-n003-micl 上 执行 时 间接 近 44s， 而 
Intel Xeon Phi 协 处 理 器 c001-n003-mic0 和 c001-n003-micl 上 有 用 计算 时 间接 近 35s, 
其 净 效 率 约 为 80%。 

使 用 菜单 Charts 一 Event Timeline 或 者 键盘 快捷 键 Ctrl+AlttE， 可 以 对 非 均衡 MPI W 
式 期 权 定价 计算 中 设备 之 间 的 通信 进行 可 视 化 。 由 于 之 前 修改 了 所 有 主机 的 进程 聚合 方法 ， 
主机 名 组 也 会 显示 在 这 里 。 
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图 25-7 ITAC: 将 Process Aggregation XXW “All Nodes” FI WA EJ wt EY 
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图 25-8 ITAC: Load Balance 选项 卡 ， 显 示 按 设备 的 主机 名 分 组 的 执行 时 间 





Event Timeline 图 显示 了 每 个 序列 或 设备 上 应 用 程序 执行 时 间 的 统计 分 析 (参见 图 25-9 )。 
导航 键 可 以 用 于 放大 /缩小 ， 以 及 移动 所 选择 的 时 间 间 隔 。 请 注意 ， 缩 放 或 平移 区 间 时 ， 除 
了 顶部 的 Trace Map 外 ， 所 有 图 将 会 变 为 只 显示 所 选 时 间 段 的 信息 。 
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图 25-9 ITAC: 非 均 衡 MPI 运行 的 事件 时 间 轴 
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ITAC 中 所 有 图 使 用 以 下 着 色 方 案 : 标 有 “ Application" WKE CEIPIIARJK(G) ERR 
有 用 的 计算 ， 标 有 “MPI” 的 红色 【〈 书 中 为 浅 灰 色 ) RR MPI 通信 以 及 空闲 时 间 ; 点 对 点 通 
信用 黑 线 与 对 应 的 MPI 组 相连 ， 并 由 蓝 色 线 表示 集合 通信 ， 但 在 蓝 色 书 中 的 “Application ” 
栏 背景 下 不 容易 被 发 现 。 因 此 ， 可 以 在 时 间 轴 图 上 右 击 并 选择 Event Timeline Settings 菜单 ， 
之 后 修改 对 应 的 参数 ， 以 实现 对 颜色 的 修改 。 


25.7 ”手动 负载 均衡 


一 种 将 示例 应 用 的 计算 工作 负载 进行 分 配 的 方法 是 将 更 多 iStrike for 循环 的 迭代 分 
配 到 更 快 的 设备 上 。 当 所 有 和 迭代 花费 相同 的 处 理 时 间 时 ， 以 下 方法 是 可 行 的 ， 这 也 正 是 这 个 
特殊 问题 所 面临 的 情况 。 如 果 执 行 时 间 对 于 每 次 迭代 是 不 同 的 ,例如 由 于 非 确定 性 ， 这 种 方 
法 仍然 可 能 导致 不 均衡 的 工作 负载 分 配 (图 25-10 )。 


int arrStrikes[4] = (0, 28, 64, 100); 
for (int iCalc=0; iCalc < nCalculations; iCalc++) { 
const int nStrikes - 100; 
const float strikeMin - 10.0f 
const float strikeMax - 20.0f 
for (int iStrike - arrStrike[myRank]; 
iStrike < arrStrike [myRank+1] ; 


iStrike++) { 
const float K = strikeMin + (strikeMax - strikeMin) * 
(float)iStrike / (float) (nStrikes - 1); 


rr 


MPI Barrier(MPI COMM WORLD); 





图 25-10 ”手动 实现 均衡 的 工作 负载 分 配 的 代码 清单 


迭代 次 数 是 基于 应 用 程序 输出 的 性 能 值 而 计算 得 出 的 ( 见 图 25-6 )。MPI 运行 时 将 采用 
Intel Xeon 处 理 器 作为 zank0 ， 两 个 协 处 理 需 分 别 作为 zankl 和 2。 因 此 ， 前 28 次 迭代 将 
分 配给 处 理 器 ， 剩 余 的 两 组 36 次 迭代 (共计 100 次 迭代 ) 分 别 分 配给 两 个 协 处 理 器 : 

Nass ——À— — x 100 = 28 
8.19 x 10° +1.06 x 10' +1.05 x 10 
"e 1.05 x 10’ 
PHY 8.19 x 105 1.06 x 107 +1.05 x 10” 

这 些 迭 代 次 数 作为 数组 arrStrikes [4] 的 值 存储 在 应 用 程序 中 ， 并 分 配给 计算 的 参 
与 者 。 例 如 ， 第 一 个 协 处 理 器 将 处 理 第 28 ~ 64 (64 = 28 + 36) 次 执行 ， 共 处 理 36 次 执行 
和 迭代。 因此 ， 对 计算 设置 的 任何 修改 也 将 需要 重新 计算 这 些 值 并 对 代码 进行 重新 调 优 。 

用 于 手动 均衡 计算 的 Event Timeline 图 显示 在 图 25-11 的 底部 。 由 于 更 少 的 时 间 用 在 
MPI 进程 之 间 的 同步 上 ， 因 此 提高 了 应 用 程序 的 整体 性 能 。 

单 击 View 一 Compare 可 以 将 新 的 跟踪 与 原始 的 不 均衡 情况 进行 对 比 。 可 以 同步 导航 
键 或 鼠标 缩放 ， 以 及 使 两 个 跟踪 的 时 间 尺 度 相 一 致 。 在 这 里 你 可 以 看 到 一 些 改进 ， 应 用 程 
序 在 实际 计算 ( 蓝 色 区 域 ; SPARK) 上 正在 花费 更 多 的 时 间 ， 而 不 是 等 待 通信 ( 见 
图 25-12 )。 


x 100 = 36 
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图 25-11 ITAC: 手动 均衡 MPI 运行 的 事件 时 间 轴 
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图 25-12 ITAC: 手动 均衡 和 原来 非 均 衡 MPI 运行 的 事件 时 间 轴 比较 视图 
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手动 均衡 的 MPI 应 用 程序 运行 输出 结果 表明 ， 该 实现 相对 于 非 均 衡 的 代码 运行 速度 提 


高 了 22% ( 


WE 25-13), 


Worker Share Performance  Effic. 
c001-n003 28.0% 8.26e+06 99.2% 
c001-n003-micO 36.0% 1.06e+07 99.5% 


c001-n003-micl 36.0% 1.05e«07 100.0% 
# Calculation 4 of 10 took 3.587 seconds 
# Net performance: 2.92e+07 paths/second 





图 25-13 ”手动 均衡 的 亚 式 期 权 定 价 MPI 应 用 程序 运行 的 输出 结果 片段 


25.8 动态 老板 - 工人 负载 均衡 


负载 均衡 通常 需要 改变 整个 MPI 应 用 程序 上 的 工作 负载 分 配 。 本 节 讨 论 在 异 构 集 群 组 
件 上 的 动态 负载 分 配 ( 见 图 25-14) 


网 络 MPI 通信 
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图 25-14 ”动态 负载 均衡 的 老板 - 工人 模型 下 的 MPI 通信 方案 


指定 MPI rankO (老板 序列 ) 负责 动态 调度 ， 并 且 在 异 构 集 群 组 件 ( 工 人 ) 中 分 配 MC 
亚 式 期 权 定 价 计 算 ， 这 里 的 异 构 集 群 组 件 为 Intel Xeon 处 理 器 以 及 Intel Xeon Phi 协 处 理 器 。 
在 之 前 的 计算 步 结 果 返 回 时 ， 每 个 工人 请 求 一 个 新 的 计算 部 分 。 其 结果 是 ， 在 计算 集群 中 更 
快 的 组 件 比 慢 组 件 执行 更 多 的 计算 。 在 此 期 间 无 需 手 动 干 预 ， 只 需 一 个 线程 专门 负责 工作 负 
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载 分 配 (图 25-15 和 图 25-16 中 的 MPI process0), 

应 当 指出 的 是 ， 如 果 每 次 所 请 求 的 工作 负载 量 是 非常 小 的 ， 工 人 和 老板 之 间 的 通信 可 能 
成 为 瓶颈 。 这 可 以 通过 增加 每 次 分 配给 每 个 工人 的 计算 量 来 解决 。 另 一 方面 ， 如 果 工 作 负 载 
分 布 的 粒度 过 粗 ， 这 可 能 会 导致 最 后 请 求 的 不 均衡 处 理 。 因 此 ， 我 们 努力 在 请 求 的 通信 以 及 
每 次 请 求 所 分 配 的 工作 量 之 间 寻 找 均衡 . 
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图 25-15 ITAC: 动态 均衡 的 老板 - 工人 模型 实现 的 事件 时 间 轴 





图 25-16 ITAC: 动态 均衡 的 老板 — 工人 模型 实现 的 放大 的 事件 时 间 轴 


图 25-16 显示 了 放大 之 后 的 老板 进程 0 和 三 名 工人 进程 P1、P2 和 了 P3 之 间 的 通信 ， 其 
中 最 后 两 个 进程 运行 在 Intel Xeon Phi 协 处 理 器 上 。 

应 当 指 出 的 是 ,老板 进程 只 需要 一 个 线程 。 剩 余 的 可 用 线程 可 以 作为 工人 使 用 。 但 是 
在 默认 情况 下 ， 当 在 同一 设备 上 运行 两 个 MPI 进程 时 ， MPI 会 将 所 有 可 用 的 内 核 平 均 分 为 
两 组 ， 每 组 提供 设备 50% 的 计算 能 力 。 通 过 使 用 下 面 两 个 环境 变量 ， 计 算 性 能 会 根据 每 个 
MPI 进程 上 所 使 用 的 OpenMP 线程 数 而 成 比例 分 配 : 


export I MPI PIN DOMAIN-omp 
export I MPI PIN=0 
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由 老板 序列 实现 动态 工作 负载 分 布 的 代码 段 如 图 25-17 所 示 。 
动态 均衡 的 老板 — 工人 实现 所 产生 的 执行 结果 与 图 25-18 给 出 的 结果 类 似 。 
图 25-19 显示 了 本 章 所 讨论 的 三 种 实现 的 整体 性 能 ， 并 由 每 秒 所 产生 的 随机 路 径 数 表示 。 


if (myRank 
int nR 


bossRank) { 

; /* Number of processed tasks */ 
; /* Next task to assign */ 
nPars) ( 


(nR 


/* Wait for any worker to report for work */ 
float buf [nsgReportLength] ; 
MPI Recv(&buf, msgReportLength, 
MPI . INT, MPI ANY SOURCE, msgReportTag, 
MPI | COMM | WORLD, &status); 
const int iW - status.MPI . SOURCE ; 


if (buf[0] > 0.0f) 
/* If worker reports with results of a 
previous task, record these results */ 
nR++; 
const int iR = floorf(buf[1]); 
payoff arithm put [iR] = buf[2]; 


if (iP « nStrikes) ( 
/* Assign the next task iP to worker iW */ 
float buf[msgSchedLen] = {iP, 
M[iP], N[iP], K[iP], S[iP], /*...*/); 
MPI Send((void*)&buf, msgSchedLen, 
MPI FLOAT, iW, msgSchedTag, 
MPI COMM WORLD); 
iP++; 





图 25-17 动态 均衡 的 老板 - 工人 模式 下 亚 式 期 权 定 价 MPL 应 用 程序 的 源 代 码 片 段 (老板 序列 ) 


Worker Share Performance Effic. 
c001-n003 28.0% 8.10e+06 99.5% 
c001-n003-micO 36.0% 1.07e€+07 96.9% 
c001-n003-micl 36.0% 1.07e+07 96.6% 
# Calculation 9 of 10 took 3.645 seconds 
# Net performance: 2.88e+07 paths/second 





图 25-18 动态 均衡 的 老板 - 工人 模式 下 亚 式 期 权 定价 MPI 应 用 程序 运行 的 输出 片段 
图 25-19 中 的 性 能 结果 表明 ， 对 于 亚 30 





式 期 权 回报 的 MC 计算 ， 老 板 - 工人 动态 g” 
负载 均衡 与 静态 /手动 负载 均衡 具有 类 似 B7 
的 性 能 。 zu 
"a 
25.9 结论 ET 
与 GPU 不 同 ，Intel Xeon Phi 协 处 理 : Era ae L3 
器 在 与 主 处 理 器 对 称 的 模式 下 执行 本 机 应 ws 


Hi. 在 这 种 模式 下 ， 应 用 程序 在 协 处理 器 图 25-19 本章 提出 的 三 种 负载 均衡 技术 的 性 能 结果 
的 操作 系统 上 和 运行， 并且 不 需要 运行 在 CPU 上 的 主机 进程 邱 载 数据 到 协 处 理 器 。 因 此 ， 对 
于 一 个 MPI 框架 中 的 应 用 程序 ， 可 以 在 协 处 理 器 上 直接 运行 MPI 进程 ， 并 与 主机 系统 处 理 
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春运 行 相同 的 代码 (对 称 模式 )。 在 这 种 情况 下 ， 与 集群 中 的 独立 计算 节点 一 样 ， 协 处 理 需 
拥有 一 个 MPI 序 列 以 及 端 到 端 通信 能 力 ， 并 且 可 以 访问 网 络 共享 文件 系统 。 在 这 样 的 配置 
下 ， 就 没有 必要 测量 应 用 程序 中 的 数据 秃 载 以 达到 异 构 系统 中 处理 器 和 协 处 理 器 的 折 中 使 
用 。 这 就 是 说 ， 在 无 需 修改 的 前 提 下 ， 一 个 专门 为 CPU 集群 设计 的 MPI 应 用 程序 也 可 以 用 
于 拥有 协 处 理 需 的 集群 环境 中 。 

为 了 使 对 称 的 MPI 应 用 程序 获得 更 好 的 整体 性 能 ， 工 作 负 和 载 均衡 是 必需 的 ， 因 为 异 构 
集群 中 的 计算 单元 (处理 器 和 Intel Xeon Phi 协 处 理 器 ) 拥有 不 同 的 计算 能 力 。 

显 式 或 手动 负载 均衡 可 以 通过 根据 计算 设备 的 计算 能 力 成 比例 重新 分 配 计 算 工 作 量 来 
实现 。 

动态 负载 均衡 技术 (老板 一 工人 模式 ) 可 以 产生 与 手动 工作 负载 分 布 类 似 的 整体 性 能 。 
这 种 方法 有 另 一 个 优点 : MPI 应 用 程序 的 扩展 不 需要 额外 的 程序 调 优 。 通 过 添加 更 多 计算 节 
点 以 及 在 机 需 文 件 中 写 人 更 多 主机 名 ， 基 于 动态 负载 分 布 实现 的 MPI 应 用 程序 即 可 获得 更 
快 的 计算 速度 。 

在 此 提出 的 查找 和 解决 对 称 MPI 应 用 程序 中 负载 不 均衡 的 方法 ， 可 以 用 于 提高 异 构 集 
群 环境 ( 主 处 理 妖 以 及 Intel Xeon Phi 协 处 理 器 ) 中 应 用 程序 的 整体 性 能 。 这 种 集群 上 的 统 
一 编程 环境 使 我 们 的 工作 非常 简单 。 所 生成 的 代码 具有 广泛 的 适用 性 ， 它 同样 适用 于 每 个 节 
点 之 间 具 有 执行 差异 的 同 构 系统 。 


25.10 ”更 多 信息 
与 本 章 相关 的 一 些 额外 的 阅读 材料 如 下 : 


e Vladimirov, A., Karpusenko, V., October, 2013. Heterogeneous Clustering with Homogeneous 
Code: Accelerate MPI Applications Without Code Surgery Using Intel Xeon Phi Coprocessors. 
Colfax Research. http://research.colfaxinternational.com/post/2013/10/17/Heterogeneous- 
Clustering.aspx. 

e Colfax International, 2013. Parallel Programming and Optimization with Intel Xeon Phi 
Coprocessors. ISBN-10 0-9885234-1-8|ISBN-13 978-0-9885234-1-8. http://www.colfax-intl. 
com/nd/xeonphi/book.aspx. 

e 本 章 以 及 其 他 章 的 代码 下 载 地 址 http://lotsofcores.com. 
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本 章 介绍 配 务 Intel Xeon Phi 协 处 理 占 的 集群 系统 上 分 布 式 核 外 (out-of-core, OOC) 大 
BUS BS ERE LU 和 Cholesky 分 解 解法 句 的 实现 。OOC 算法 融合 旨 在 减少 CPU 和 协 处 理 咒 
间 数 据 移动 的 left-looking 和 right-looking 技术 ， 同 时 优化 数据 局 部 性 和 计算 吞吐 量 。OOC 
解法 融 的 接口 与 ScaLAPACK 软件 库 一 致 ， 因 此 可 以 方便 地 用 于 调用 ScaLAPACK 的 已 有 程 
序 。 实 验 性 能 测试 将 在 配备 48 个 节点 的 美国 国家 计算 科学 研究 所 Beacon 集群 系统 上 进行 ， 
其 中 每 个 节点 都 配置 Intel Xeon 处 理 器 以 及 Intel Xeon Phi 协 处 理 器 ， 同 时 还 将 给 出 Intel 
Xeon Phi UMIEZE2S LI GPU 集群 上 的 性 能 对 比 。 


26.1 引言 


在 现代 数值 模拟 〈 例 如 热 分 析 、 边 界 元 法 分 析 、 混 合 应 用 中 的 电磁 波 计算 ) 中 ， 大 规模 
秽 密 矩阵 计算 均 是 其 骨干 函数 。 许 多 顶级 的 超级 计算 机 都 利用 配置 PCIe 的 特殊 加 速 需 或 类 
似 Intel Xeon Phi 的 协 处 理 右 ， 或 者 NVIDIA 图 形 处 理 器 。 例 如 ，2014 年 6 月 发 布 的 TOP500 
中 的 第 一 名 是 位 于 中 国 广州 国家 超级 计算 中 心 的 天 河 2 号 超级 计算 机 ， 它 利用 Intel Xeon Phi 
协 处 理 器 计算 LINPACK 达到 峰值 性 能 33.86PFLOPS， 排 名 第 二 的 是 位 于 美国 橡树 岭 国 家 实 
验 室 的 Cray XK2 Titan， 它 使 用 NVIDIA K20 GPU 计算 LINPACK 性 能 达到 17.59PFLOPS。 
RE DM Bias Al GPU 加 速 右 具有 更 高 的 数值 计算 能 力 ， 但 是 在 高 效 利 用 这 些 辅助 设备 
方面 依然 存在 一 些 挑 战 : 
e 为 了 有 效 利 用 加 速 器 或 协 处 理 器 ， 需 要 开发 大 规模 并 行 性 。Intel Xeon Phi 的 协 处 理 
器 有 60 个 物理 x86 处 理 内 核 ， 每 个 处 理 器 内 核 支 持 4 路 多 线程 处 理 ， 因 此 总 体 可 文 
持 240 路 并 行 性 。 
e 与 主 计 算 机 内 存 相 比 ， 辅 助 设备 仅 有 有 限 的 设备 存储 亏 ， 例 如 ， 协 处 理 器 可 能 有 
8GB 片上 内 存 ， 但 是 主机 端 可 以 配备 32GB 或 更 多 主 存 。 因 此 需要 外 存 或 OOC 算法 
来 解决 需要 更 大 设备 存储 器 的 问题 。 
e 主机 或 者 主机 内 存 与 设备 间 的 数据 传输 非常 耗 时 ， 例 如 Cray XK7 Titan 超级 计算 机 
的 GPU 和 CPU 主机 间 的 数据 传输 带宽 是 4GB/s， 因 此 ， 设 备 上 后 续 的 计算 需要 摊 销 
费时 的 数据 传输 。 
因此 ， 新 的 并 行 OOC 解法 器 需要 高 效 利 用 这 种 包括 多 核 CPU 和 协 处 理 器 或 加 速 亏 的 新 
型 混合 体系 结构 。 已 经 存在 大 量 异 构 系 统 上 的 稠密 线性 代数 库 的 实现 , (参见 26.7 节 ,Agullo 
et al., 2011, 2009; Barrett et al., 2010; D'Azevedo and Hill, 2012; Fogue et al., 2010; Humphrey 
et al., 2010; Jetley et al., 2010; Quintana-Orti et al., 2009; Song and Dongarra, 2012; Song et al., 
2012), — MA, DEURE ew AK DC 1 A ed [COR aK BE RI AP EE. ScaLAPACK 


342 $26 È 


库 中 已 经 使 用 了 与 二 维 循环 分 块 分 配 兼 容 的 新 的 并 行 LU 解法 希 ， 以 充分 利用 了 NVIDIA 
GPU。 该 算法 使 用 OOC 方法 ,将 GPU 设备 存储 髓 视 为 快速 内 核 存储 舌 ， 而 将 主机 端的 主 
存 视 为 慢 速 的 辅助 存储 器 。OOC 算法 在 分 解 阶段 采用 left-looking 和 right-looking 算法 ， 
left-looking 算法 最 小 化 通信 开销 ， 用 来 更 新 协 处 理 需 上 的 矩阵， 而 right-looking 算法 可 提供 
更 高 的 计算 性 能 。 

本 章 介绍 利用 NVIDIA GPU 上 CUBLAS 以 及 Intel Xeon Phi (pAb EE gs il AeA x fI Intel 
MKL 来 使 用 并 行 OOC 解法 需 中 的 技术 和 挑战 。 首 先 ，26.2 节 展 示 在 多 核 和 多 GPU 系统 上 
以 及 多 核 和 多 协 处 理 需 系统 上 并 行 分 解 大 规模 稠密 和 矩阵 的 OOC 算法 。 接 下 来 ，26.3 市 介绍 
移植 GPU 解法 器 到 协 处 理 器 上 的 技术 和 挑战 。26.4 节 将 给 出 Beacon 上 的 数值 结果 ， 包 括 性 
能 数据 和 Keeneland 上 的 时 间 比 较 结果 。 最 后 ，26.5 节 给 出 了 本 章 的 精华 和 一 些 正 在 进行 的 
工作 。 


26.2 基于 ScaLAPACK 的 OOC 分 解 算 法 


在 过 去 CPU 内 存 相 比 外 存 大 小 有 限时 ， 大 规模 稠密 矩阵 问题 的 OOC 分 解 算法 已 被 大 
量 研 究 。 其 中 的 本 质 思想 也 可 应 用 于 目前 的 异 构 系 统 。 本 章 中 ,我 们 利用 E. D'Azevedo 和 
J. Dongarra (参见 26.7 节 ; D'Azevedo and Dongarra, 2000 ) 提出 的 left-looking OOC 算法 来 
实现 LU 和 Cholesky 分 解 ， 并 且 介 绍 一 个 旨 在 减少 CPU 和 辅助 设备 存储 器 间 的 数据 传输 的 
优化 方法 。OOC 算法 的 核心 是 一 个 核 内 并 行 LU 和 Cholesky 分 解 ， 即 仅 利用 right-looking 
算法 计算 设备 上 数据 的 算法 。 

ScaLAPACK 使 用 分 布 式 的 二 维 递归 分 块 存储 格式 ， 如 图 26-1 所 示 。 主 机 端 使 用 基 
T MPI 的 BLACS (基本 线性 代数 通信 子 程 序 ) 来 实现 数据 传输 ， 一些 论 文 (参见 26.7 1; 
D'Azevedo and Dongarra, 2000 ; D'Azevedo and Hill, 2012 ) 已 经 详细 介绍 了 并 行 LU 算法 。 
本 章 中 , 我 们 将 类 似 的 OOC 算法 扩展 到 Cholesky 分 解 中 。 





npcol nb 


图 26-1 ScaLAPACK PA) DHA. AREE A 被 一 个 大 小 为 nprow*npcol 
的 处 理 融 网 格 划 分 ，nb 是 块 大 小 


26.2.1 ADH 


ScaLAPACK 的 PDPOTRF 函数 使 用 right-looking 算法 计算 Cholesky 分 解 ， 对 设备 内 存 
中 的 分 布 式 矩 阵 也 采用 同样 的 方法 。 由 于 CPU 主机 不 能 直接 访问 辅助 设备 的 存储 ， 因 此 设 
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备 上 的 数据 需要 传输 到 CPU 上 的 一 个 临时 缓冲 区 中 ， 以 便 被 MPI 库 访 问 。 这 种 传输 是 主要 
的 性 能 瓶颈 ， 因 此 为 了 获得 较 高 性 能 需要 优化 这 一 点 。 
考虑 对 称 正定 矩阵 4 的 分 块 划 分 : 


A = A, A, - Li La Ls ( 26-1 ) 
A A» L, L,, L. 


HB, EE Aa 是 一 个 k*k TE. NET HORREA 需要 进行 一 系列 操作 : 
1. 假设 前 大 列 已 经 分 解 ， 应 用 : 


"EFIE ras) 


其 中 ， A) = LyLyy', An = Lalu, IARE RH An 的 分 解 利 用 ScaLAPACK 的 PDPOTRF pk 
BUTE CPU 端 执 行 ， 这 里 = MB HEREDIAK 
2. 在 GPU HXT Az 执行 对 称 秩 更 新 。 
Å, C= A, ds LL ( 26-3 ) 
这 个 任务 是 分 解 中 的 主要 工作 量 ,， 需要 在 处 理 器 列 中 广播 L,,， 在 处 理 器 行 中 广播 La, 
并 在 GPU 端 利用 DSYRK 和 DGEMM 执行 计算 ,这 里 并 不 需要 更 多 的 通信 。 
3. 递归 分 解 剩余 矩阵 
Ay, P LoLa ( 26-4 ) 
right-looking 方法 提供 了 更 好 的 负载 均衡 并 且 提 供 更 多 的 并 行 性 。 


26.2.2 OOC 分 解 


OOC 分 解 方法 十 分 类 似 于 上 节 中 的 核 内 算法 。 主 要 的 不 同 之 处 在 于 ， 位 于 CPU 端的 矩 
E 4 无 法 全 部 存储 于 设备 端的 核 内 存储 融 上 ， 因 此 需要 导致 CPU 和 设备 之 间 的 一 些 数据 传 
举 ， 但 是 必须 尽 可 能 减少 这 些 数据 传输 以 获得 较 高 性 能 。right-looking 方法 和 left-looking 77 
法 的 总 VO 开销 分 别 是 : 


M? 
—(1+ O(n, / M)(R - W) ( 26-5) 
a, 
M? 
z, (*O0(n, / M)R*-2M" (14 O(n, | M)W ( 26-6 ) 
ny, 


其 中 ,nn 是 M*M 大 小 矩阵 4 的 分 块 大 小 , RA WAIA ERMS A i ER IB 
假定 读 写 开销 近似 ， 则 left-looking 方法 (BIZ (26-6 ) )， 较 之 right-looking 方法 (EPIR ( 26- 
5 ) ) 而 言 具 有 更 小 的 数据 传输 开销 。 

OOC 计算 需要 使 用 两 个 列 块 。 大 的 列 块 了 位 于 设备 存储 中 ， 并 累加 上 一 次 分 解 中 得 到 
的 更 新 ， 小 的 列 块 式 保留 上 一 次 已 计算 完成 的 分 解 。 计 算 的 步骤 基本 类 似 核 内 算法 。 

1. 类 似 于 核 内 分 解 ， 把 Ap M An 复制 到 设备 内 存 的 列 块 了 中 ， 把 已 经 计算 的 Ly 和 La 
中 部 分 结果 复制 到 设备 内 存 的 列 块 蕊 中 。 

2. 将 列 块 了 复制 回 CPU 端 然 后 调用 PBLAS 中 的 PDTRSM 来 进行 三 角 和 矩阵 求解 。 

3. 对 列 块 了 进行 对 称 秩 庆 更 新 ， 即 矩阵 乘法 。 类 似 于 核 内 分 解 ， 这 需要 沿 人 处理 器 列 广播 
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Ly 的 部 分 元 素 ， 并 沿 处 理 需 行 广播 Cr 的 部 分 元 素 。 然 后 可 以 调用 DSYRK 在 对 角 线 上 分 块 
上 执行 对 称 秩 k 更 新 ， 并 调用 DGEMM 处 理 其 他 分 块 ， 这 些 操作 都 不 需要 通信 。 

4. 在 所 有 的 更 新 执行 完毕 后 ， 列 块 CAS). 的 底部 方形 区 域 利用 26.2.1 节 中 介绍 的 核 内 
算法 进行 分 解 。 

5. 计算 完成 的 列 块 了 被 复制 回 CPU 端 设 备 中 。 

列 块 了 的 宽度 选择 影响 算法 的 性 能 ， 并 且 该 数值 选择 也 受 限 于 设备 端的 可 用 内 存 大 小 。 
较 宽 的 列 块 了 会 降低 主机 闪 和 设备 端的 数据 传输 量 。 图 26-2 展示 了 Cholesky 分 解 的 OOC 
算法 总 体 框 架 。 





图 26-2 Cholesky 分 解 的 OOC 算法 。a) 未 计算 的 4 4 RINE AUR ( 左 图 )。b) 对 于 
每 一 个 列 块 使 用 left-looking 更 新 算法 。c) 使 用 right-looking 算法 


如 果 选 择 列 块 了 的 宽度 为 WK， 即 列 块 的 总 大 小 为 N*(N/K)， 或 者 说 整个 矩阵 分 为 K 个 
列 块 Y。 第 一 个 列 块 了 不 需要 任何 预先 计算 的 数值 ， 可 以 直接 进行 分 解 。 但 是 接 下 来 的 KK 个 
Y 列 块 分 解 都 需要 前 K-1 列 块 了 的 计算 结果 。 总 共 的 数据 传输 量 为 (1 +2+… +(K-1)* 
( N* ( NIK))=( K-1 )/2*N。 因 此 的 值 越 小 越 好 ， 以 及 列 块 的 宽度 越 大 越 好 ， 这 样 将 极 大 
Mig V 45 mI CPU 端的 数据 传输 量 。 然 后 ， 宽 度 N/K 受 限 于 设备 端的 可 用 内 存 大 小 。 


26.3 M NVIDIA GPU 移植 到 Intel Xeon Phi HANER 


GPU 端的 代码 使 用 CUDA 语言 编写 ， 并 利用 CUBLAS 中 的 高 层 库 例 程 执行 BLAS 中 
的 稠密 矩阵 操作 ， 进 行 数 据 传 输 管理 以 及 设备 端 内 存 的 分 配 和 释放 。 这 种 利用 高 层 操作 的 模 
式 十 分 适用 于 协 处 理 器 上 使 用 Intel LEO (MRE A Y E) 中 #pragma 编译 制导 语句 的 印 载 
模型 。 这 种 方法 可 以 通过 利用 OpenMP 4.0 中 的 “target” 制 导语 句 实 现 。 

两 者 间 的 第 一 个 不 同 之 处 在 于 设备 内 存 的 管理 。 印 载 模式 假定 设备 内 存 端的 数组 均 有 一 
个 主机 内 存 端 的 对 应 数组 镜像 副本 ， 使 用 图 26-3 中 印 载 指令 给 出 的 length () alloc_ 
if(), free if() 等 选项 执行 操作 。 


double *Y = (double*) malloc(n*sizeof(double)); 
#pragma offload transfer target(mic:MYDEVICE) nocopy(Y:length(n) alloc if(1) free if(80)) 


#pragma offload transfer target(mic:MYDEVICE) nocopy(Y:length(n) alloc if(0) free if(1)) 





图 26-3 Intel MIC 上 分 配 和 释放 内 存 的 代码 段 
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CUDA 允许 显 式 的 设备 内 存 分 配 和 释放 ， 在 主机 端 并 不 需要 有 对 应 的 数据 空间 。 图 26-4 
中 使 用 不 同 的 长 度 将 会 导致 错误 。 


int *p = (int*) malloc(l*sizeof(int)); 
int *q = (int*) malloc(1*sizeof(int)); 


#pragma offload transfer target(mic) nocopy(p:length(1880) alloc if(1) free if(0)) 
#pragma offload transfer target(mic) nocopy(q:length(1800) alloc if(1) free if(9)) 





图 26-4 不 一 致 的 内 存 印 载 分 配 大 小 将 会 导致 错误 


一 种 典型 的 工作 方式 是 在 设备 端 利 用 memalign () 分 配 内 存 ， 但 利用 长 整 型 而 非 指 针 
类 型 将 地 址 指针 传 回 ， 整 数值 只 应 用 在 卸载 数据 传输 中 ， 并 且 在 使 用 前 重新 转换 为 指针 类 型 。 
图 26-5 展示 了 cublasAlloc() 和 cublasFree() 两 个 图 数 的 等 价 实现 。 注 意 , intprt t 
类 型 是 C99 标准 ， 保 证 可 以 存放 一 个 指针 数据 。 


intptr t offload Alloc(size t síze)( 
intptr t ptr; 
#pragma offload target(mic:MYDEVICE) out(ptr) 
{ 


ptr = (intptr_t) memalign(64, size); 
return ptr; 


} 


void offload Free(void* p)( 
intptr t ptr = (intptr t)p; 
#pragma offload target (mic:MYDEVICE) in(ptr) 
{ 


free((void*)ptr); 


if (dAtmp != 8) ( 
#ifdef USE MIC #ifdef USE MIC 
dY = (double*) offload Alloc(isizeY*elemSize) ; offload Free(dAtmp) ; 
lse #else 
cublasAlloc( isizeY, elemSize, (void **) &dY ); CUBLAS FREE( dAtmp ); 
fendif #Hendif 
dAtmp = 6; 





图 26-5 Intel MIC 上 的 内 存 分 配 和 释放 代码 段 


印 载 模式 的 另 一 个 不 同 之 处 在 于 其 只 允许 传输 一 维 或 者 连续 内 存 数 据 ， 而 CUDA 的 
cudaMemcpy 2D 人 允许 传输 二 维 子 矩阵 。 这 种 操作 可 以 通过 如 下 循环 来 替代 。 

(i) 打包 二 维 数据 到 一 个 连续 的 一 维 缓存 中 。 

Gi) 利用 印 载 制导 语句 传输 一 维 连续 的 缓存 。 

(ii) 在 设备 端 恢复 原始 二 维 数据 。 

调用 CUBLAS 中 的 函数 可 以 简单 地 替换 为 MKL 中 对 应 函数 的 调用 。 图 26-6 展示 了 将 
CUBLAS 中 DGEMM 调用 等 价 地 转换 为 MKL 中 DGEMM 调用 的 示例 。 印 载 制导 语句 将 指针 转 
换 为 整数 类 型 传输 并 在 使 用 前 将 其 重新 转化 为 指针 类 型 。 
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CUBLAS DGEMM( 
CUBLAS OP N,CUBLAS OP N, mm,nn,kk, 
zalpha, (double *) dA(LrAl, LCAL), ldAtmp, 
(double *) dB(lrB1,lcB1), ldBtmp, 
zbeta, (double *) dC(lrC1,lcC1), ldC ); 


offload dgemm("N", "N", &mm, &nn, &kk, 
&zalpha, (double *) dA(lrA1,lcA1), &ldAtmp, 
(double *) dB(lrBl,lcB1), &ldBtmp, 
&zbeta, (double *) dC(lrC1,1cC1), &ldC ); 


void offload dgemm(const char *transa, const char *transb, const MKL INT *m, const MKL INT *n, const MKL INT *k, 
const doubie *alpha, const double “a, const MKL INT *lda, const double *b, const MKL INT *ldb, 
const double “beta, double *c, const MKL INT *ldc){ 

/" 

* perform dgemm on the device. a,b,c pre-exist on the device 
e? 


intptr t aptr = (intptr t)a; 

intptr t bptr - (intptr t)b; 

intptr t cptr = (íntptr t)c; 

#pragma offload target(mic:MYDEVICE) in(transa,transb,m,n,k:length(1)) \ 
in(alpha,lda,ldb,beta,lóc:length(1)) 


dgemm(transa,transb,m,n,k,alpha,(double*)aptr,lda, (double*")bptr,ldb,beta, (double*)cptr, lac); 





图 26-6 CUBLAS 到 Intel MKL 的 转化 


26.4 数值 结果 


核 外 Cholesky 分 解 器 的 数值 实验 在 Beacon 集群 上 执行 ， 其 中 包括 协 处 理 颖 以 验证 可 扩 
展 性 和 性 能 特征 。 

Beacon 位 于 美国 国家 计算 科学 中 心 ， 包 括 Intel Xeon AAAA Intel Xeon Phi 协 处 理 需 ， 
在 2012 年 11 月 的 Green500 排行 榜 中 名 列 第 一 ， 能 效 为 71.4% (2.449GFIOPS/W)。Beacon 
包括 48 个 计算 节点 ， 每 个 节点 中 有 两 个 8 核 Intel Xeon E5-2670 处 理 器 (总共 16 个 物理 内 
核 )， 以 及 4 个 Intel Xeon Phi 5110P 协 处 理 器 。 每 个 协 处 理 需 包括 8GB 设备 内 存 以 及 60 个 
频率 为 1.053GHz 的 内 核 。CPU 端 每 个 节点 上 配置 256GB AFF. Beacon 使 用 FDR InfiniBand 
互联 。 节 点 中 的 每 个 内 核 都 能 访问 所 有 协 处 理 器 。GPU 的 测试 结果 在 Keeneland fLz& (http:// 
keeneland. pet edu/) 上 进行 。Keeneland 集群 包括 264 个 节点 ， 总 的 双 精 度 浮 点 性 能 为 
615TFLOPS, 节点 配置 32GB 主机 端 内 存 、 两 个 Intel Xeon E5 处 理 器 以 及 3 个 NVIDIA 
M2090 GPU. "n M2090 GPU 的 峰值 为 665GFLOPS, F HME 6GB 设备 内 存 。 

# 26-1 总 结 了 Beacon 上 每 个 节点 利用 4 个 MPI 任务 执行 LU 分 解 的 性 能 ， 每 个 MPI 
任务 都 辅助 以 一 个 协 处 理 器 (设备 编号 为 MOD(MPI rank, 4)), OOC 列 块 大 小 大 约 为 6GB 
设备 内 存 ， 块 大 小 为 MB=NB=512。 表 26-2 展示 了 Cholesky 分 解 的 性 能 结果 。 每 个 协 处 理 
器 最 高 性 能 能 达到 370GFLOPS 。 


表 26-1 Beacon 上 LU 分 解 的 性 能 


处 理 器 网 格 每 个 MIC 的 性 能 (GFLOPS ) 
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( 续 ) 
EET 8 MIC 的 性 能 (GFLOPS) 


表 26-2 Beacon 上 上 LT 分 解 的 性 能 


处 理 器 网 格 每 个 MIC 的 性 能 (GFLOPS) 


图 26-7 展示 了 Beacon. 上 每 个 协 处 理 央 的 性 能 与 主机 和 设备 内 存 大 小 比率 的 关系 。 实 验 
在 4 个 节点 上 执行 ， 每 个 节点 上 有 两 个 协 处 理 器 和 两 个 CPU 内 核 参 与 计算 。 选 择 4*2 处 理 
arte. ERK) NB Jy 512, memsize 固定 为 737 280， 这 等 价 于 5.625GB 设备 内 存 (每 个 
MPI 任务 配置 一 个 协 处 理 侨 )。 最 大 的 矩阵 大 小 为 N = 360 448， 总 共 需 要 主机 闪 948GB 内 
存 ， 每 个 节点 242GB 内 存 。 最 大 的 p 为 (360 448*360 448)/(737 280*1024) = 20。 曲 线 的 趋 
ARH, p 值 越 大 性 能 越 好 。 


每 个 设备 的 性 能 (GFLOPS) 





0 5 10 15 20 
主机 与 设备 之 间 内 存 比率 


图 26-7 Beacon 上 性 能 与 主机 和 设备 之 间 内 存 比率 p 的 关系 。 处 理 帮 网 格 为 4*+2，p 最 大 为 20 
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图 26-8 和 26-9 展示 了 不 同和 矩阵 大 小 的 性 能 ， 因 此 可 以 比较 其 与 直接 调用 ScaLA PACK 
中 PDPOTRF 例 程 的 性 能 。 在 Keeneland 上 ,和 矩阵 大 小 最 大 为 86 400。 在 一 个 GPU 和 8 核 
CPU 上 比较 性 能 。 总 体 而 言 ，GPU 的 性 能 要 优 于 CPU。 特 别 是 在 和 矩阵 规模 ON 较 大 时 GPU 
性 能 持续 增加 ，CPU 端 在 中 等 大 小 的 N 时 就 已 达到 最 优 性 能 ， 并 且 随 着 N 的 继续 增加 ， 人 性 
能 还 显著 下 降 。 在 Beacon 上 ， 协 处 理 器 的 性 能 也 能 在 较 大 N 时 维持 增长 。 


B 每 个 GPU 的 性 能 
B 每 个 CPU 的 性 能 


| I 
E a 


每 个 设备 的 性 能 (GFLOPS) 





0 20 000 40 000 60 000 80 000 100 000 
和 矩阵 大 小 


图 26-8 Keeneland 上 不 同 矩 阵 大 小 N 的 性 能 ， 最 大 的 矩阵 大 小 为 W = 86 400， 这 等 价 于 
每 个 节点 使 用 28GB 主机 内 存 。 图 上 也 展示 了 仅 用 CPU 调用 ScaLAPACK 的 性 能 


m 每 个 MIC 的 性 能 


每 个 设备 的 性 能 (GFLOPS) 
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图 26-9 Beacon 上 不 同 符 阵 大 小 六 的 性 能 ， 最 大 的 矩阵 大 小 为 W= 360 448。 
每 个 节点 使 用 242GB 主机 内 存 


图 26-10 展示 了 Keeneland 上 固定 处 理 硕 网 格 大 小 的 性 能 数据 ， 研 究 了 两 个 平台 的 可 扩 
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展 性 ， 包 括 弱 可 扩展 和 强 可 扩展 。 处 理 器 网 格 是 4p*4p， 使 用 2*p” 个 节点 。 在 弱 可 扩展 性 
方面 ， 和 矩阵 大 小 为 Y= 84 352*p， 每 个 MPI 任务 使 用 665MB 设备 内 存 ， 分 块 大 小 NB=128。 
总 体 性 能 基本 上 是 线性 增长 ， 每 个 GPU 的 性 能 大 约 为 170GFLOPS， 整 体 上 有 轻微 的 降低 。 
对 于 强 可 扩展 性 ， 和 矩阵 大 小 固定 为 N = 84 352， 每 个 MPI 任务 使 用 665MB 设备 内 存 ， 分 块 
大 小 NB=128。 总 体 性 能 随 着 处 理 右 网 格 大 小 的 增加 而 增长 。 总 体 范围 上 看 执行 时 间 下 降 。 


83 RT SRAI 


RU 
@ 每 小 设 每 个 设备 的 性 能 


GFLOPS 
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图 26-10 Keeneland 上 的 弱 和 强 可 扩展 性 。 处 理 器 网 格 是 4p*4p, 使 用 2*p 个 节点 , p 最 大 为 7 
图 26-11 展示 了 Beacon 上 的 强 可 扩展 性 。 这 里 也 有 类 似 的 结果 ， 总 体 性 能 随 着 处 理 器 


网 格 p*p 的 增加 而 增长 。 分 解 的 总 体 时 间 持 续 下 降 。 从 这 些 可 扩展 性 研究 结果 看 ，OOC 算 
法 可 以 获得 较 好 的 可 扩展 性 ， 并 且 可 以 扩展 到 较 大 的 处 理 器 网 格 上 。 





GFLOPS 


TFLOPS 
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图 26-11 Beacon 上 的 强 可 扩展 性 。 处 理 器 网 格 为 2p*p， 使 用 矿 个 节点 , p 最 大 为 6 
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26.5 结论 和 展望 


总 之 ， 本 章 介 绍 了 分 布 式 内 存 上 与 ScaLAPACK 接口 兼容 的 并 行 LU 和 Cholesky 解法 
器 ， 并 且 利 用 了 GPU 和 MIC 加 速 器 。OOC 算法 支持 几 倍 于 可 用 设备 内 存 的 较 大 问题 规模 
的 求解 ， 性 能 随 着 数据 大 小 设备 内 存 比 率 p 的 增加 而 增长 。 

未 来 的 优化 将 包括 利用 异步 BLAS 操作 以 及 并 发 数据 传输 优化 性 能 。 
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Rin PEI 3e: 并 行 化 和 问 量 化 





Albert-Jan N. Yzelman, Dirk Roose, Karl Meerbergen 
比利时 ， 鲁 汶 大 学 


27.1 引言 


稀 朴 计算 在 计算 代码 中 十 分 常见 ， 其 中 稀 朴 矩阵 向 量 (SPMV) 乘法 作为 重要 的 计算 核 
心 广泛 应 用 在 各 个 领域 中 ,包括 模 拟 (例如 计算 流体 动力 学 、 结 构 分 析 )， 优 化 问题 (例如 经 
济 、 运 输 调度 )， 以 及 数据 分 析 (例如 药物 检验 、 社 会 网 络 ) 等 。 稀 朴 和 矩阵 的 特点 是 矩阵 中 有 
大 部 分 元 素 等 于 零 。 为 了 利用 稀 朴 性 ， 这 些 矩 阵 存储 在 专门 设计 的 数据 结构 中 ， 从 而 可 以 避 
免 与 零 相 乘 的 无 用 计算 。 

向 量 单 元 的 宽度 不 断 增加 以 及 每 个 内 核 有 效 带 宽 的 降低 是 当今 硬件 的 发 展 趋势 。 对 于 稀 
朴 计 算 ， 这 两 种 趋势 是 相互 冲突 的 。 本 章 将 考虑 拥有 向 量 处 理 能 力 的 多 核 架 构 上 的 稀 朴 矩阵 
运算 ， 并 针对 向 量化 稀 朴 计算 设计 一 个 可 用 和 高 效 的 数据 结构 。 

一 个 mxn 和 矩阵 4 具有 m 行 和 n 列 ,并 包含 元 素 aj, HPi-0,1,,m-1,j750,1, , 
N - 1。 考 虑 到 矩阵 向 量 乘法 = 4x， 其 中 x 向 量 以 及 y 向 量 的 维 数 分 别 为 n 以 及 m。 输 
出 向 量 y 的 每 个 元 素 由 4 矩阵 的 一 行 元 素 与 输入 向 量 x 的 点 积 得 到 ， 即 y= 了 ayx)， 如 
图 27-1 所 示 。 若 A 矩阵 的 所 有 元 素 按 行 优先 方式 存储 ， 则 4 矩阵 一 行 中 的 连续 元 素 存储 在 
连续 的 内 存 空间 中 ,那么 4 矩阵 和 ?向量 都 连续 读 取 且 访问 步 幅 为 1。 这样 的 流 访问 是 非常 
高 效 的 ， 从 而 达到 很 高 的 数据 移动 带宽 。 非 必需 的 缓存 缺失 则 只 出 现在 输入 向 量 x 上 ， 因 为 
它 的 元 素 需要 反复 读 取 。 





图 27-1 MERER y — Ax， 图 中 为 y 的 计算 过 程 。 深 灰色 的 方块 代表 非 零 元 ， 而 空 的 方块 代表 零 元 


考虑 到 缓存 的 大 小 , A 矩阵 一 种 高 效 的 存储 方式 是 将 其 划分 成 一 系列 了 于 块 ， 且 每 个 于 块 
可 以 被 精确 地 放 到 缓存 中 。 这 类 缓存 感知 方法 的 另外 一 个 发 展 方向 是 开发 存储 方案 以 及 算 
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法 ， 无 须 考虑 缓存 层次 结构 细节 即 可 获得 好 的 性 能 。 这 样 的 缓存 无 关 方 法 不 需要 设置 依赖 于 
体系 结构 的 参数 ， 如 上 述 子 块 大 小 。 

如 果 A ZEN), RA a; 0 的 元 素 和 它们 在 矩阵 中 的 位 置 应 该 存储 。 这 些 黎 疏 存储 方 
案 将 在 27.2 节 中 介绍 。 对 于 压缩 的 稀 玻 和 矩阵 结构 ， 每 个 数据 字 上 的 操作 次 数 (也 称 为 计算 密度 ) 
是 非常 低 的 。 由 于 执行 浮 点 运算 的 时 间 比 读 取 或 存储 数据 字 的 时 间 要 短 得 多 ，SpMV 乘法 性 能 
只 能 达到 峰值 性 能 很 低 的 百分比 。 这 是 稀 玖 计算 的 特性 问题 ， 并 且 可 能 导致 以 下 两 条 结果 : 

(a) 稀疏 矩阵 的 压缩 存储 提高 了 性 能 ; 

(b) 稀疏 计算 不 能 受益 于 问 量 化 。 

我 们 表明 ， 即 使 压缩 存储 会 导致 额外 操作 ， 但 由 于 该 操作 是 带宽 受 限 的 ， 它 仍然 可 以 获 
得 好 的 性 能 。 然 而 ， 后 者 并 不 总 是 正确 的 : 尽管 SpMYV 乘法 具有 低 计 算 密 度 ， 但 向 量化 仍 
可 以 提高 其 在 Intel Xeon Phi 协 处 理 器 上 的 性 能 。 

27.2 节 介 绍 几 种 稀 朴 矩阵 数据 结构 。27.3 节 将 讨论 在 共享 内 存 系统 上 SPMV 乘法 的 几 
种 并 行 化 策略 。27.4 节 介 绍 如 何 通 过 回 量 化 提升 其 在 Intel Xeon Phi 协 处 理 器 上 的 性 能 。 人 性 
能 结果 将 在 27.5 节 展 示 。 


27.2 Fame FAA A 


—^r RET Fi Bit FE ER BY SEAS HE PE hs (COO) 格式 ， 该 格式 将 稀疏 和 矩阵 4 存储 
为 三 个 长 度 为 nz 的 数组 Ci, j, k)。 这 里 ,nz A 矩阵 非 零 元 的 个 数 。 在 COO 格式 中 , 第 
k 个 非 零 元 对 应 的 三 个 数组 值 分 别 为 v= aj, im d, je Jo 需要 注意 的 是 ，4 的 非 零 元 可 以 
按 任意 顺序 存储 。 算 法 27-1 使 用 COO 计算 y= Ax. 

算法 27-1: 基于 COO 的 SpMV 乘法 

I: for k=0 to nz-1 do 

2: add v, x, t0 y, 

3: end for 

对 于 基于 COO 的 SpMV 乘法 ， 计 算 密 度 通常 在 0.25 和 1 之 间 ， 这 取决 于 缓存 效率 。 
然而 ， 为 了 充分 利用 当前 处 理 器 的 计算 能 力 ， 更 高 的 计算 密度 是 必要 的 。 

例如 ，Intel Haswell E3-1225 处 理 器 具有 4 个 3.2 GHz AK. GABE HE AVX 2 向 量 
指令 ， 这 人 允许 4 个 64 位 数据 字 上 的 同时 (〈 回 量 ) 操作 。 该 处 理 器 还 支持 融合 乘 加 (FMA) 48 
令 ， 即 在 每 个 数据 字 上 同时 执行 两 个 浮 点 运算 (flop)。 在 计算 处 理 器 峰值 性 能 时 ， 假 定 使 用 
FMA 操作 ， 与 内 核 数 、 可 以 同时 操作 的 数据 字 的 个 数 〈 回 量 长 度 ) AAD PR AR DR EAE, BD 
2x4x4x3.2 = 102.4 GFLOPS。 一 个 DDR3-1600 内 存 控制 器 的 带宽 为 12.8 GB/s, 3X 1.6 
千 兆 字 每 秒 。 为 了 充分 利用 该 处 理 器 的 计算 能 力 ， 对 于 每 个 提供 给 处 理 器 的 数据 字 需 要 发 生 
1024/16=64 次 计算 。 

Intel Xeon Phi 7120A 协 处 理 需 具有 .61 个 主 频 为 1.238 GHz 的 内 核 ， 同 时 支持 FMA 
指令 ， 并 包含 可 以 同时 人 处理 8 个 64 位 数据 字 的 向 量 单 元 。 因 此 ， 它 的 峰值 性 能 为 
2 x 61 x 8 x 1.238 = 1208GFLOPS。 该 协 处 理 器 包含 16GB 的 GDDRS 内 存 ， 最 高 带宽 为 352GB/s, 
Bl 44 千 兆 字 每 秒 。 对 于 在 该 处 理 器 上 计算 受 限 的 算法 ， 在 每 个 数据 字 上 至 少 需 要 28 次 操作 
( 1208/44= 27.5 ) 。 

显然 ， 对 于 以 上 讨论 的 两 个 现代 处 理 器 架构 ， 每 个 数据 字 需 要 的 操作 数量 要 远 远 高 于 如 
SPMV 乘法 等 稀 朴 计算 算法 所 能 提供 的 。 因 此 ， 这 里 的 问题 是 带宽 受 限 的 ， 即 内 核 需要 花费 
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相对 较 长 的 时 间 等 待 所 需要 的 数据 。 

通过 更 高 效 的 缓存 行为 ， 可 以 在 一 定 程度 上 解决 这 个 问题 。 而 黎 瑰 和 矩阵 数据 结构 的 访问 
本 上身 是 连续 的 ， 并 且 步 幅 为 1， 向 量 x 和 了 的 访问 模式 由 
非 零 元 的 顺序 确定 : 一 个 行 优先 顺序 会 市 来 y 癌 量 上 步 幅 
为 1 的 连续 访问 , 但 x 同 量 上 的 访问 是 随机 的 。 然 而 ， 
一 个 完全 随机 的 顺序 将 使 x 和 y 问 量 上 的 随机 访问 成 本 
十 分 昂贵 。 随 机 访问 〈 相 对 于 连续 的 访问 ) 具有 高 延迟 成 
本 以 及 较 低 的 否 吐 量 ,， 并 可 能 拖延 内 核 的 速度 。 分 形 存 
储 方 案 可 以 优化 非 零 元 的 顺序 ， 尽 可 能 使 x 和 yy 癌 量 的 
内 存 访问 开销 最 低 。 空 间 填 充 曲 线 对 非 零 元 坐标 Ci, j) 
进行 重新 排序 。 图 27-2 所 示 为 基于 希 尔 但 特 曲 线 的 非 零 
元 的 缓存 无 关 序 。 

矩阵 感知 方法 可 以 分 析 A 矩阵 的 非 零 元 结构 ， 并 根 
据 该 信息 来 优化 数据 存储 。 一 些 库 软 件 可 以 自动 检测 小 
的 结构 块 ， 并 结合 缓存 感知 的 数据 结构 进行 目 动 调 优 ， 
这 些 库 软 件 包括 OSKI 和 pOSKI 等 。 有 关 缓 存 感 知 以 及 矩阵 感知 方法 的 更 多 信息 可 以 参阅 
Vuduc et al. (2005 ) 。 或 者 ， 通 过 稀 朴 和 矩阵 分 割 ， 和 拖 阵 的 行 和 列 可 以 重新 排序 ， 在 一 种 改进 
的 缓存 无 关 的 方式 下 使 得 缓存 缺失 数量 的 上 限 最 低 。 自 动 调 优 或 矩阵 感知 方法 的 预 处 理 成 本 
限制 了 这 类 方法 的 可 用 性 。 





图 27-2 根据 希 尔 伯 特 空间 填充 曲 
£X yi PF LAB P 


27.2.4 压缩 后 的 数据 结构 


COO 格式 的 数据 结构 可 以 通过 几 种 方式 压缩 。 如 果 首 先 在 非 零 元 上 使 用 行 优 先 顺序 
随后 的 i 所 对 应 的 项 具有 相同 的 行 号 。 这 些 宛 余数 据 可 压缩 成 一 个 大 小 为 mel 的 数组 s， 其 
中 s; 的 值 设 定 为 0 和 上 < nz 中 的 最 小 整数 ， 其 中 计 = i, OSi<m, Sm 的 值 定义 为 nz。 在 数 
据 结 构 (s, j, v) P, 行 压 缩 存 储 CCRS) 格式 的 后 两 个 数组 与 COO 相同 ， 其 中 非 零 元 按 行 
优先 的 顺序 存储 。 事 实 上 ，CRS 是 存储 非 结 构 化 稀 朴 和 矩阵 的 标准 ”。 需 要 注意 的 是 ， 在 CRS 
格式 下 不 能 实现 缓存 无 关 优化 ， 例 如 图 27-2 Aras IB AEA CHE 

一 个 基于 CRS 格式 的 SPMV 乘法 包含 两 层 循环 ， 第 一 层 遍 历 所 有 的 行 ， 第 二 层 人 遍历 每 
行 的 非 零 元 ， 如 算法 27-2 所 示 。 

算法 27-2: 基于 CRS 的 SpMV 乘法 

|: fori =0 to m—1 do 

2: fork=s tos, ,.-1 do 


i+] 


3: add v, +x, to y, 
4: end for 
5: end for 


FEW, f AA HE FIP PSE Ba j 会 得 到 列 压缩 存储 (CCS) 格式 。 需 要 注意 的 是 ， 
CRS 需要 O (2nz - m - 1) 的 存储 空间 ， 相 对 于 COO 格式 的 8(3nz)， 存 储 开 销 显著 降低 。 

压缩 存储 也 可 以 不 受 限 于 一 种 特定 的 非 零 元 顺序 ， 如 行 优 先 或 者 列 优先 。 考 虑 COO X 
据 结构 ， 在 任意 非 零 元 顺序 下 ， 相 邻 数值 的 ;与 了 之 间 的 差 值 可 以 定义 为 增 量 数组 ， 分 别 表 
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AA Ai 以 及 Aj ， 即 


| i; k=0 
(At), =4. . 
L4. k>0 


对 于 Aj EXW, K 27-3 ( 左 图 ) 说 明了 这 种 增 量 编码 方式 。 





27-3 ”一 个 例子 矩阵 的 框架 图 (左上 图 ) MER COO 表示 (右上 图 )。 通 过 从 COO 增 量 编码 (左下 
图 ) 的 Ai 中 删除 零 元 ， 可 以 推导 出 BICRS 数据 结构 ( 右 下 图 )。Aj 中 的 加 黑 元 素 表示 在 对 
应 的 非 零 元 上 发 生 了 行 跳 转 ; 需要 注意 的 是 ， 这 表示 把 n 加 到 相应 的 列 增 量 中 


当 连 续 的 非 零 元 属于 同一 行 或 列 时 ， 零 值 串 出 现在 Aik Aj 中 ,这 使 得 压缩 存储 成 为 
可 能 。 我 们 将 存储 Ai IMA Ai, HH (Aid =(Aio， 同 时 删除 了 所 有 剩余 的 零 元 。 为 了 不 
丢失 非 零 元 的 行 坐 标 信息 ， 修 改 了 Aj 数据 ， 即 将 n 加 到 对 应 元 素 的 列 增 量 数组 中 ， 从 而 在 
Ai 中 的 每 次 矩阵 行 跳 转 时 进行 标记 。 由 此 产生 的 数组 Aj 可 由 以 下 公式 决定 : 

Aj, k=0, 
Aj, =4Aj, k>0 Ai, =0 
Aj,tn° k>OHAi, #0 

图 27-3 (AB) 说 明了 这 种 做 法 。 需 要 注意 的 是 ， 列 增 量 数组 中 附加 的 得 记 实 质 上 只 在 
每 项 上 产生 一 个 位 开销 。 

类 似 于 CRS 和 CCS， 行 和 列 的 角色 可 以 通过 对 Aj 进行 压缩 而 互 换 。 这 些 数据 结构 分 
别称 为 双 回 增 量 CRS (BICRS) 和 BICCS 格式 。BICRS 人 允许 高 效 的 实现 ， 如 算法 27-3 所 示 。 
BICRS 的 引入 使 得 利用 空间 填充 曲线 进行 数据 移动 成 为 可 能 。 更 详细 的 信息 请 参考 Yzelman 
and Bisseling ( 2012 ) 。 

算法 27-3. 基于 BICRS 的 SpMV 乘法 


les 

2: for k =0 to nz-1 do 

3: add v, -x, to y, 

4: add Aj,,, toj 

5: ifj indicates a row jump then 
6: add Ai, to i 

f= increment c 

8: endif 

9: end for 


需要 注意 的 是 ， 分 别 只 需要 9 (logom) 以 及 O (logon) 位 来 存储 Ai 5 Aj 的 一 个 元 素 。 
通过 使 用 短 整 型 来 存储 这 些 数组 ， 实 现 了 进一步 的 压缩 存储 。 我 们 将 该 数据 结构 称 作 压缩 的 
BICRS 格式 。 
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27.2.2 分 块 


使 用 压缩 的 BICRS 格式 与 稀 跑 输入 矩阵 的 分 块 是 相互 促进 的 。 我 们 采用 了 一 种 两 层次 
混合 方法 ， 其 中 4 矩阵 分 为 小 的 方块 ， 并 且 这 些 块根 据 希 尔 伯 特 空间 填充 曲线 进行 排序 。 
对 这 些 块 以 上 述 方 式 进行 排序 可 以 提高 缓存 效率 ， 并 且 可 以 通过 BICRS 格式 有 效 地 存储 。 
构建 这 种 更 高 级 别 的 数据 结构 是 廉价 的 ， 因 为 基于 希 尔 伯 特 的 COO 格式 需要 对 每 个 子 块 而 
非 每 个 非 零 元 进行 计算 ， 这 也 适用 于 基于 和 希 尔 伯 特 坐 标的 子 块 〈 而 非 非 零 元 ) 的 排序 。 

在 每 个 块 中 ， 非 零 元 根据 行 优先 顺序 存储 。 我 们 优化 了 每 个 块 的 维度 ,使 得 Ai 与 Aj 可 以 
用 16 位 (即使 用 short int) 来 存储 。 块 中 非 零 元 的 压缩 存储 可 通过 压缩 的 BICRS 格式 实现 ， 
因为 稀 朴 块 中 的 大 多 数 行 都 是 空 的 ， 所 以 BICRS 优 于 CRS 一 一 无 论 这 些 行 是 否 为 空 ， 后 者 都 需 
要 mel 的 存储 开销 。 通 过 借助 短 整 型 进一步 压缩 ， 这 种 两 层次 方案 可 以 确保 分 块 的 矩阵 存储 比 
原始 未 对 4 和 矩阵 分 块 的 CSR 格式 存储 开销 低 。 更 多 详细 信息 请 参考 Yzelman and Roose( 2014 )。 


27.3 并行 SpMV 乘法 

为 了 在 共享 存储 体系 结构 上 对 上 述 算法 进行 并 行 化 ， 工 作 负 载 需 要 分 布 在 可 用 的 多 线 
程 或 多 进程 上 。 在 一 般 情况 下 ， 数 据 驻 留 在 全 局 存储 颖 中 供 全 部 线程 访问 。 如 有 果 在 连续 的 大 
块 内 存 空间 中 分 配 和 矩阵 和 向 量 ， 则 每 个 线程 可 以 根据 给 定 的 工作 负载 分 配 访问 块 中 的 元 系 。 
这 样 ， 基 于 CRS 的 SpMV 乘法 可 以 很 容易 地 通过 OpenMP 的 编译 制导 语句 进行 并 行 化 ， 
即 在 算法 27-2 中 的 最 外 层 for 循环 (语句 1) 前 加 入 编译 制导 语句 omp parallel for 
schedule (dynamic,8), 

然而 ， 通 过 使 每 一 个 内 核 分 配 自己 的 内 存 块 ， 数 据 也 可 以 显 式 分 配 ， 从 而 使 得 每 个 线程 
分 配 在 并 行 计算 中 它 所 操作 的 数据 元 素 。 在 共享 存储 右 体 系 结构 上 使 用 显 式 数据 分 配 有 以 下 
两 方面 原因 : (1 ) 避免 数据 竞争 ;( 2 ) 利用 数据 局 部 性 。 显 式 地 分 配 数 据 或 保持 所 有 数据 全 
局 可 用 可 显著 影响 性 能 。 以 下 描述 了 两 种 SPMV 乘法 的 数据 分 配 类 型 ， 它 们 都 在 不 同 程度 


上 使 用 了 显 却 数据 分 配 。 
27.3.1 部 分 分 布 式 并 行 SpMV 


在 部 分 分 布 式 方式 中 ， 如 图 27-4 所 示 ， 
对 矩阵 4 按 行 划分 ， 得 到 子 矩 阵 4,， 其 中 s 
=0, =, p - 1, 为 线程 数 。 每 个 子 矩 阵 A 
是 一 个 少 于 m 行 但 具有 完整 n 列 的 长 方形 
上 矩阵。 遵守 显 式 分 配 的 思想 ， 每 个 子 矩 阵 存 
储 在 独立 的 内 存 块 中 。 为 了 确保 负载 均衡 ， 
每 个 4, 应 含有 大 约 nz/p 个 元 素 (虽然 行 数 
可 不 同 于 m/p)。 每 个 4, 分 为 有 固定 的 行 和 ”图 27-4 当 p=2 时 的 部 分 分 布 式 廊 法 。 把 上 部 和 
列 维度 的 子 块 ， 并 利用 (压缩 的 ) BICRS 格 下 部 矩阵 区 域 分 配给 不 同 的 线程 。 该 分 配 
式 存储 (参照 前 面 音节 对 分 块 的 描述 ) 。 这 保证 了 每 个 线程 处 理 大 约 相 同 数 目的 非 零 


元 素 。 因 此 ， 在 实践 中 ， 各 区 域 的 高 度 可 
些 子 块 按 硕 尔 但 特 填 充 曲 线 的 定义 进行 处 能 不 相同 。 输 出 向 量 (Ze) 是 根据 矩阵 行 








理 。 这 种 缓存 无 关 元 素 遍 历 有 利于 高 级 别 绥 的 分 配 而 分 配 的。 输入 向 量 (顶部 ) 没有 
存 中 的 数据 重用 ， 同 时 最 大 限度 地 减少 所 需 显 式 地 分 配 。 上 部 和 下 部 区 域 中 的 希 尔 伯 


数据 的 存储 开销 。 特 曲 线 表示 和 矩阵 块 的 缓存 无 关 访 问 模式 
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根据 矩阵 行 的 分 配 ， 输 出 向 量 y 也 分 成 p 个 连续 且 不 重合 的 块 ， 其 中 第 s 个 块 由 线程 s 
自己 分 配 。 线 程 只 访问 由 它们 自己 分 配 的 y,， 从 而 避免 输出 向 量 上 的 数据 苋 争 (并 发 写 入 )， 
也 同时 利用 y 向 量 上 的 数据 局 部 性 。 所 有 线程 仍然 在 整个 输入 回 量 x 上 进行 操作 ,该 向 量 尽 
可 能 以 交错 的 方式 存储 在 多 个 存储 条 中 。 这 在 Intel Xeon Phi 协 处 理 器 上 是 自动 完成 的 ， 但 
在 其 他 共享 内 存 体系 结构 下 需要 通过 “ libnuma” 库 进行 人 工 干预 。 这 可 以 防止 利用 x 向量 
上 的 任何 数据 局 部 性 。 根 据 按 行 分 配 的 性 质 及 向 量 x 的 全 局 可 用 性 ， 在 SpMV 乘法 的 执行 
期 间 无 须 显 式 的 线程 间 通 信 或 同步 。 更 详细 的 描述 请 参阅 Yzelman and Roose ( 2014 )。 

算法 27-4 是 该 方法 的 框架 。 值 得 注意 的 是 ， 最 后 一 行 (语句 4) 是 可 选 的 ， 并且 仅 当 该 
应 用 程序 不 能 使 用 分 布 式 输出 向 量 时 ， 它 才 是 必需 的 。 然 而 ， 要 利用 数据 局 部 性 和 提高 缓存 
效率 ， 高 效 的 应 用 程序 通过 在 每 个 y, 上 各 自 使 用 线程 本 地 的 操作 完成 y 向 量 上 的 操作 。 

算法 27-4: 部 分 分 布 式 并 行 SpMV 乘法 

1: Partition A row-wise into local matrices 4,s=0,…,p-1( 见 图 27-4) 

2: Create corresponding local arrays y,,s 2 0,...,p-1 

3: Each core s-0,*, p-1 executes SpMV (4A,, x, y, ) 

4: Concatenate y,,s=0,:-:,p—1 into y 


27.3.2 ”完全 分 布 式 并 行 SpMV 


在 一 个 完全 分 布 式 的 方案 中 ， 我 们 不 但 在 矩阵 4 和 疝 量 y 上 利用 数据 局 部 性 ， 而 且 在 问 
量 x 上 利用 数据 局 部 性 。 在 预 处 理 阶段 ， 我 们 首先 通过 将 稀 玖 矩阵 A BEEF ICRI A p 个 部 
分 ， 对 稀 玖 和 矩阵 进行 分 区 。 这 些 子 块 再 次 形成 本 地 甜 阵 4;， 每 个 线程 可 以 并 行 执 行 本 地 
SPMV 乘法 y, = Ayx;。 然 而 ， 在 这 种 情况 下 ，4; WTA FERRE, x Aly, 因此 可 能 会 有 
输入 和 输出 癌 量 的 重合 于 集 。 一 个 好 的 矩阵 划分 可 以 使 4, 尽 可 能 接近 nz/p 的 值 ， 并且 使 涉 
及 Ay. x, Aly, HUE DAT ID f UI ME 

图 27-5 £8 i T 4 Be RE POUR Ar P X 
对 角 (SBD) 格式 下 的 矩阵 划分 ， 如 文献 
Yzelman and Bisseling ( 2009, 2011 ) 所 述 。 这 
种 划分 可 以 由 (递归 ) 超 图 双 回 分 区 得 到 ， 这 
通常 需要 通过 使 用 矩阵 分 割 器 进行 预 处 理 。 对 
于 这 种 分 割 右 的 例子 ， 可 以 参考 Vastenhouw 
and Bisseling ( 2005 ) 给 出 的 Mondriaan 以 及 
Devine et al. (2006 ) 给 出 的 Zoltan。 该 划分 Å 
还 定义 了 将 4 上 矩阵 变换 为 SBD 格式 所 需 的 ”图 27-5 4 个 线程 下 的 完全 分 布 式 和 重 排序 SpMV 





重 排序 。 重 排序 产生 了 p 个 大 的 本 地 块 (图 乘法 。 季 个 方 决 对 应 于 分 配给 不 同 线程 的 
27-5 中 的 方块 )， 并 用 p— 个 分 割 十 字 进 行 分 da 
ies 割 十 字 中 的 非 零 元 可 以 划分 到 任何 分 割 器 
Ne = Jnjn 1 b H 
" pla 所 跨越 的 线程 。 当 x 向 量 的 一 个 元 素 与 一 
而 涉及 分 割 十 字 中 非 零 元 的 乘法 运算 需要 显 a rie deir 
Se 2MLT SES SERA, BCR RT PUE 
苑 和 争 ， 还 需要 引入 同 步 开 销 。 多 个 线程 修改 。 在 实际 中 ， 块 的 大 小 通常 


线程 本 地 的 乘法 并 没有 使 用 前 面 章 节 所 是 不 相同 的 


358 He 27 F 


讲 的 显 式 分 块 方案 ， 而 是 依靠 由 双重 SBD 重 排序 自发 产生 的 数据 块 。 这 些 本 地 块 和 分 割 十 
字 单 独 存储 在 压缩 BICRS 数据 结构 中 ， 其 中 Ai 与 Aj 数 组 的 数据 类 型 是 在 运行 时 自动 调 优 
的 ， 以 达到 压缩 程度 的 最 大 化 。 

在 分 布 式 内 存 体 系 结构 下 ， 显 式 地 分 配 所 有 数据 是 必需 的 : 现代 的 超级 计算 需要 完全 分 
布 式 的 算法 以 实现 在 多 个 节点 上 的 并 行 化 ， 而 在 节点 内 则 使 用 其 他 方法 。 在 此 讲述 的 完全 分 
布 式 SPMV 乘法 方法 在 分 布 式 内 存 以 及 共享 内 存 体系 结构 上 都 是 有 效 的 ， 由 Yzelman et al. 
(2014) 最 近 的 证 明 可 知 。 当 应 用 在 多 插 权 共享 内 存 机 右上 时 ， 它 的 性 能 比 本 节 前 面 所 描述 
的 部 分 分 布 式 并 行 SPMV 乘法 要 高 ， 同 时 优 于 其 他 最 新 方法 。 

由 于 移 阵 分 割 的 成 本 是 不 可 忽略 的 且 随 线程 数量 而 增加 ， 因 此 这 种 方法 不 适用 于 Intel 
Xeon Phi 协 处 理 硕 。 然 而 ， 当 工作 负载 分 布 在 多 个 Intel Xeon Phi 处 理 器 上 时 ， 如 在 典型 
的 分 布 式 内 存 超级 计算 环境 中 ， 完 全 分 布 式 是 获得 良好 性 能 的 必然 方式 。 此 方法 的 更 多 详 
细 信 息 请 参阅 Yzelman and Roose ( 2014 )。 对 于 本 方案 的 高 性 能 实现 ， 请 参考 Yzelman et 
al. (2014) 基于 C 语言 的 Nulticore BSP 实现 。 


27.4 Intel Xeon Phi 协 处 理 器 的 向 量化 

Intel Xeon Phi 协 处 理 帮 的 癌 量 单元 作用 在 向 量 寄存 右上 ， 每 个 向 量 寄存 右 包 含 8 个 64 
位 浮 点 值 。SpMYV 乘法 的 低 “ 浮 点 运算 - 字 节 ”比率 表明 这 些 向 量 单元 不 适用 于 带宽 受 限 的 
计算 ; 计算 是 内 存 受 限 的 ， 即 处 理 单元 会 更 多 地 等 待 所 需 数据 ， 而 不 是 在 这 些 数据 上 执行 计 
算 。 然 而 ， 简 单 地 使 用 上 一 节 摘 述 的 部 分 分 布 式 并 行 SPMV 得 到 的 有 效 带宽 远 低 于 可 用 市 
宽 352 GB/s， 其 中 线程 数量 p 不 断 增 加 ， 直 至 p=240。 这 表明 在 协 处 理 器 上 执行 SpMV 并 
不 是 带宽 受 限 的 (当然 ,也 不 是 计算 受 限 的 )。 相 反 ， 在 这 个 架构 上 的 乘法 运算 已 变 成 延迟 
受 限 一 一 使 用 全 部 240 个 线程 并 没有 使 内 存 子 系统 饱和 。 一 种 在 相同 线程 数量 下 可 以 产生 更 
多 数据 请 求 的 方法 是 使 用 向 量化 。 

使 用 压缩 的 BICRS 格式 ， 实 现 串 行 SPMV 乘法 的 自动 向 量化 是 不 可 能 的 。 指 针 运 算 和 
间接 向 量 元 素 寻 址 阻碍 了 自动 向 量化 。 要 使 向 量化 可 用 , BICRS 乘法 算法 需要 重 写 为 在 p* q 
非 零 元 的 连续 块 上 进行 操作 ， 其 中 p*， 9 = 1 是 向 量化 的 长 度 ， 从 而 使 问 量 寄存 器 可 以 同时 在 
1 个 非 零 元 上 进行 操作 。 

我 们 将 已 和 4 不 同 的 可 能 选择 称 为 “ 块 大 小 "， 在 协 处 理 器 上 , P .9g=8， 因 此 出 现 了 4 
种 可 能 的 块 大 小 : 1x8, 2x4, 4x2 以 及 8x1， 如 图 27-6 所 示 。 如 果 y、v 和 x 是 对 应 问 量 
寄存 器 的 长 度 为 8 的 数组 ， 那 么 SPMV 乘法 的 内 部 计算 CHI y; = ap) 可 以 写 为 一 个 向 量化 的 
FMA 运算 y = y + v#x。 为 了 使 用 这 种 类 型 的 向 量化 ， 重 写 BICRS 格式 的 SPMV 乘法 算法 需 
要 使 用 协 处 理 器 上 的 收集 与 分 发 指令 ， 收 集 指令 允许 把 一 个 数组 中 的 非 连 续 元 素 读 入 一 个 问 
量 寄存 器 中 ， 而 分 发 指令 则 相反 。 使 用 这 些 原 语 ， 下 面 的 伪 代 码 说 明了 回 量 化 的 BICRS 乘法 。 

2x4 jo ri R2 B Ja Js Je X 


ig | Vo VU Ve 3 
m Va U5 Ug U7 


1x8 jo fi jo Js Ja Js Je X 
20 Up Vi Ve Vz V4 Ve Ug V7 


4x2 jo ji J2 Ja Ja Js Je JT öxi jo ji > jr 


vo Vi 
U2 U3 
Va Us 
Ug U7 





[27-6 协 处 理 器 上 4 个 可 能 的 块 大 小 : 1x8, 2x4, 4x2 以 及 8x1]1 
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while there are nonzeroes remaining do 
get the next set of p rows to operate on 
gather the corresponding output vector elements in y 
while there are nonzeroes remaining on any of the current rows do 
get the next set of p-q (possibly overlapping) column indices 
gather the corresponding input vector elements in x 
retrieve the next set of p-g nonzero values v 
do the vectorized multiply-add y := y + v - x 
9: end while 


10: scatter the cached output vector elements y back to main memory. 
11: end while 


TERES p 47 "PRET LA BSE GHI, y [8] 5e B5 1 390m; REEL OK A p PIA PAA. 
例如 ， 对 于 2x4 的 分 块 , 向 量 的 上 半 部 分 对 应 于 图 27-6 PAY is, Ti PAR BBP RTF hs 
在 1x8 的 情况 下 ， 则 需要 一 个 全 归 约 并 将 结果 写 和 人 i， 而 8 x 1 的 分 块 则 不 需要 任何 归 约 操 
作 。 使 用 其 他 的 块 大 小 则 会 导致 部 分 归 约 。 

该 算法 同样 需要 对 BICRS 数据 结构 进行 简单 修改 : 对 于 每 一 个 pxgqg 块 ,最 后 pg-1 个 
非 零 元 的 索引 是 相对 于 该 块 中 的 第 一 个 元 素 的 。 图 27-7 说 明了 这 一 原则 。 当 4 和 矩阵 中 没有 
足够 的 非 零 元 来 填充 对 应 固定 行 数 的 块 时 ， 显 式 的 零 元 需要 填充 ， 这 种 填充 导致 了 额外 的 存 
储 开 销 和 显 式 地 与 零 元 相 乘 ， 而 这 些 开 销 有 望 被 有 效 的 带宽 使 用 所 抵消 。 
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图 27-7 最终 向量 化 的 BICRS 数据 结构 。 它 将 每 块 中 pq-1 个 非 零 元 的 相对 编码 以 及 每 
个 块 中 第 一 个 非 零 元 的 BICRS 编码 分 离开 来 ， 将 这 两 个 编码 相 组 合 即 构成 了 
最 终 的 向 量化 数据 结构 。 该 图 说 明了 4x4 和 矩阵 上 的 2x2 分 块 ， 其 中 非 零 元 按 
希 尔 伯 特 曲 线 排序 。 这 产生 了 4 个 数据 块 ， 并 包含 6 个 显 式 零 元 (填充 ) 


向 量化 SpMV 内 核 的 实现 


图 27-8 和 图 27-9 提供 了 向 量化 的 BICRS SpMV 乘法 的 一 个 通用 C++ 实现 。 在 这 些 代 
mEt, Ex, y, l p,q 如 文中 定义 。 模 板 变 量 i type 和 v type 分 别 对 应 于 索引 类 型 
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和 数值 类 型 ， 指 向 数组 Ai 与 Ai 的 指针 分 别 命名 为 row index array 和 col index array, $% 
H v 的 指针 表示 为 value_array。 所 有 其 他 变量 都 在 代码 段 内 声明 。 图 中 所 示 的 代码 是 可 用 
的 ， 且 可 以 直接 从 本 书 配 套 发 布 的 代码 中 获得 。” 


void spmv( const double ». restrict... x, double * restrict | y ) { 
//declare buffers 
—declspec(align(32)) -i-type c.ind buffer[ 1 ]; 
—declspec(align(32)) -i-type r_ind_buffer| 1 ]; 
--declspec(align(32)) -v_type input.buffer| 1 ]; 
— declspec(align(32)) _v_type outputbuffer| | ]; 
—declspec(align(32)) -v_type outputvector| | ]; 


//shift input vector, output vector to first nonzero 
x += *col index array; y += *row.index.array; 


//fill buffers and load first l output elements 
for( size_t i = 0; i < 1; ++i) { 
c_ind_buffer[ i ] = *col_index_array+-+; 
r_ind_buffer[ i | = *row_index_array++; 
outputbuffer[ i ] = 0; 
outputvector[ i | = y[ r-ind.buffer[ i ] ]; 


} 


//reset start column inder, start row index 
c.ind buffer[ 0 ] = 0; r_ind_buffer[ 0 ] = 0; 


//keep track of how many row blocks in outputvector were processed 
size_t blockrow = 0; 





图 27-8 ”通用 的 体系 结构 、 数 据 类 型 和 块 大 小 下 ， 问 量化 BICRS SpMV 乘法 的 
C++ 实现 。 这 是 内 核 初始 化 代码 ， 后 续 代 码 清 单 请 见 图 27-9 


//start kernel 

while( value.array < value.array.end ) { 
//process row 
while( x < x.end ) ( 


//fill input buffer (gather) 
for( size_t i = 0; i < l; ++i ) input. buffer[ i ] = x[ c_ind_buffer| i | ]; 


//do FMA 
for( size_t i = 0; i < l; ++i ) outputbuffer[ i | += value_array| i ] * input_buffer| i |; 


//shift nonzero vector 
value.array += l; 


// shift input vector 
X += *col_index_array; 


//fill c_ind_buffer 
for( size_t i = 0; i < l; ++i ) c.ind buffer[ i ] = *col_index_array++; 
c_ind_buffer{ 0 ] = 0; 





图 27-9 通用 的 体系 结构 、 数 据 类 型 和 块 大 小 下 ，BICRS SpMV 乘法 内 部 核心 代码 的 
C++ 实现 。 初 始 化 代码 见 图 27-8 


O 最 新 版 本 的 代码 可 参考 http://albert-jan.yzelman.net/software#SL 。 
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/ /reduce | outputbuffer elements to p row contributions 
for( size_t i = 0; i < p; ++i ) 
for( size_t j = 0; j < q; 十 十 j ) 
outputvector[ p*blockrow + i] 十 = outputbuffer[ i«q + j ]; 


//prepare for next block of p rows 
++blockrow; 
for( size_t i = 0; i < l; ++i ) outputbuffer[ i] = 0; 


//undo row change signal, shift input vector 
x 一 一 Di 


//if all elements of outputvector were updated 
if( blockrow —— q) ( 


//write back outputvector 
for( size_t i = 0; i < l; ++i ) y[ r-ind.buffer[ i] ] = outputvector[ i ]; 


//shift output vector to new row 
y += *row.index.array; 


//load new r-ind. buffer 
for( size_t i = 0; i < l; ++i ) r-ind.buffer[ i ] = *row_index_array++; 
r_ind_buffer[ 0 ] = 0; 


//read new outputvector 
for( size_t i = 0; i < l; ++i ) outputvector[ i | = y[ r-ind.buffer[ i ] ]; 


//reset block row counter 
blockrow — 0; 


//write back any modified items outputvector may hold 
for( size_t i = 0; i < l; ++i ) y[ r-ind.buffer[i] ] = outputvector[ i ]; 





图 27-9 (£) 


针对 特定 体系 结构 以 及 块 大 小 的 特定 代码 比 基 于 编译 优化 的 通用 实现 的 性 能 更 好 。 例 
如 ， 当 pp 非常 小 时 ,在 输出 向 量 上 使 用 收集 和 分 发 原 语 可 能 没有 意义 。 图 27-10 显示 了 在 
Intel Xeon Phi 上 针对 1 x 8 数据 块 的 一 个 特定 实现 ， 该 代码 通过 ICC 内 置 函数 的 AVX-512 
指令 集 进 行 优化 。 它 假定 使 用 32 位 索引 类 型 (_i type = int32 t), 64 位 浮 点 值 (_v_type 
=double)， 并 通过 标量 FMA 将 结果 写 回 向 量 。 


void spmv( const double *_restrict__ x, double x. restrict... y ) { 
-m512d input. buffer, value_buffer, outputbuffer; 
--m512i c-ind. buffer, zeroF; 
zeroF = _mm512-set_epi32( 1, 1, 1, 1, 1, 1, 1, 0 ); 
outputbuffer = .mm512.setzero. pd(); 


//load in column indices of the first block, and set c. ind. buffer[0]—0 
c.ind buffer = .mm512 load.epi32 ( col_index-array ); 
c_ind_buffer = .mm512.mullo.epi32( c.ind.buffer, zeroF ); 


// shift vector pointers to the first nonzero position 
x += *col_index_array; col.index.array += l; 





图 27-10 基于 ICC 内 置 函数 的 向 量化 BICRS SpMV 乘法 的 C++ 实现 ， 硬 件 平 台 为 Intel Xeon 
Phi。 假 设 使 用 64 位 浮 点 数 、32 位 索引 ， 以 及 大 小 为 1 x 8 的 数据 块 
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y += *row_index-_array+-+; 


//start kernel 
while( value.array < value.array.end ) { 
//process current row 
while( x < x.end ) { 
//gather input vector elements 
input_buffer = .mm512_i32logather_pd( c_ind_buffer, x, 8 ); 


//load (stream) nonzero values 
value_buffer = .mm512_load_pd( value.array ); value.array += l; 


//do FMA; outputbuffer += value_buffer * input buffer 
outputbuffer = _mm512_fmadd_pd( value_buffer, input_buffer, outputbuffer ); 


//load in next block, shift input vector 

c_ind_buffer = _mm512_load_epi32 ( col index array ); 
c.ind. buffer = -.mm512_mullo_epi32( c_ind_buffer, zeroF ); 
x += *colindex.array; col_index_array += l; 


//write out local contributions (via allreduce), and reset 
*y += .mm512_reduce_add_pd( outputbuffer ); 
outputbuffer = _mm512_setzero_pd(); 


//shift input vector back to a valid position 
X 一 一 n; 


//shift output vector to next row position 
y += *row.index. array 4-4-; 





图 27-10 (2) 


针对 Xeon Phi 的 代码 随 本 书 发 布 ， 并 采用 较 短 的 索引 类 型 (_i type = intl6 t) 进一步 
对 稀 朴 块 进行 压缩 。c_ind_buffer 的 一 次 加 载 可 以 读 取 16 个 整 型 数据 ， 而 不 是 8 个 ， 这 是 因 
H^ 512 位 寄存 器 可 以 包含 16 个 短 整数 。 这 需要 图 27-10 中 的 内 部 while 循环 展开 为 两 部 分 ， 
其 中 第 一 部 分 使 用 c ind buffer 的 上 半 部 分 。 之 后 是 一 段 处 理 行 跳 转 的 代码 ， 随 后 c_ ind 
buffer 的 上 半 部 分 与 下 半 部 分 (其 中 包含 剩余 的 未 处 理 的 列 增 量 ) 进行 交换 ， 之 后 则 重复 这 
段 内 部 核心 代码 。 手 动 展开 结束 后 ， 则 继续 循环 并 读 入 接 下 来 的 16 列 增 量 。 当 在 输出 向 量 
上 使 用 收集 和 分 发 指令 且 p < 1 时 ， 这 种 展开 也 是 必需 的 : 当 1 < p < 1 时 ， 部 分 归 约 需要 输 
出 缓冲 区 上 的 额外 置换 以 及 相 加 操作 ， 而 将 获得 的 p 份 中 间 结 果 累 加 到 输出 向 量 上 需要 屏蔽 
的 向 量 加 法 ， 这 需要 通过 展开 提高 效率 。 为 简便 起 见 ， 这 些 代码 并 不 在 此 介绍 ， 要 查看 展开 
代码 的 细节 ， 请 参阅 所 发 布 的 代码 。 


27.5 评估 


我 们 比较 了 三 个 并 行 SPMV 算法 的 执行 速度 ， 并 用 GFLOPS 衡量 ， 即 基于 OpenMP 的 
CRS SpMV 乘法 ， 通 过 PThreads 实现 的 部 分 分 布 式 并 行 SPMV 方法 (本 地 矩阵 使 用 压缩 
BICRS 格式 存储 )， 以 及 同样 用 PTreads 实现 的 部 分 分 布 式 方法 的 向 量化 版 本 (使 用 如 前 一 
节 给 出 的 向 量化 的 BICRS 数据 结构 )。 我 们 同 11.1.1 版 本 的 Intel Math Kernel Library 进行 
SR, FP REEF CRS 格式 的 。 所 有 的 代码 使 用 14.0.1 版 本 的 Intel C/C++ 编 
FESS (ICC) 进行 编译 。 
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REZ [8] 4f BE Dh ER 6 SE ( 见 图 27-11) EHT f di. re He RE 4 
类 篆 见 矩阵 : 它们 的 维度 或 小 (对 应 的 回 量 可 以 存放 在 组 合 的 缓存 中 ) BK, ABA cap sh 
结构 化 〈 非 零 元 结构 本 身 有 利于 绥 存 重用 ) 或 非 结构 化 。 依 照 上 述 方式 对 现实 世界 中 更 为 广 
泛 的 矩阵 进行 分 类 请 参考 Yzelman and Roose ( 2014), 


小 矩阵 行 列 非 零 元 
nd24k 72000 72000 28715 634 
s3dkt3m2 90449 90449 1921955 S 
大 和 矩阵 


Freescalel 3 428 755 3428 755 17 052 626 
wiki07 3 566 907 3566907 45 030 389 
cagel5 5154 859 5154 859 99 199 551 
adaptive 6 815 744 6815 744 13 624 320 





图 27-11 在 实验 中 使 用 的 和 矩阵。 在 水 平分 隔 线 以 上 的 和 矩阵 被 视 为 小 矩阵 ， 其 相应 的 输入 、 
输出 向 量 足 够 小 ， 使 其 可 以 被 现代 体系 结构 的 (组合 的 ) 大 多 数 二 级 缓存 所 容纳 。 
最 右边 一 列表 示 ， 在 基于 CRS 格式 的 SMV 乘法 中 该 稀疏 矩阵 是 否 拥 有 一 个 缓存 
友好 的 结构 (S 代表 结构 化 的 )， 如 果 没 有 这 样 的 结构 ， 则 用 U 表示 非 结 构 化 


27.5.1 Intel Xeon Phi 协 处 理 器 


我 们 在 Intel Xeon Phi 7120A 协 处 理 右 上 运行 实验 。 该 处 理 需 包含 61 个 1.238 GHz AK 
和 16GB 内 存 。 每 个 内 核 配备 了 32KB 一 级 缓存 和 256KB 二 级 缓存 ， 每 个 内 核 支 持 4 个 硬 
件 线程 。 除 了 留 给 操作 系统 的 内 核 外 ， 我 们 开启 了 所 有 内 核 上 的 全 部 线程 ， 因 此 共计 240 个 
线程 。 

图 27-12 给 出 了 部 分 分 布 式 的 并 行 SPMV 乘法 的 性 能 ， 其 中 稀 朴 和 抢 阵 格式 为 向 量化 的 
BICRS。 我 们 使 用 每 个 矩阵 上 所 有 可 能 的 块 大 小 (1x8,， 2x4, 4x23X 8x 1) 进行 实验 。 
这 些 选 择 导 致 不 同 的 填充 量 ， 如 图 27-13 所 示 。 通 过 对 比 结果 ， 当 选择 填充 量 最 小 的 块 大 小 
时 ， 几 乎 总 是 可 以 得 到 最 快 的 执行 速度 。 唯 一 的 例外 是 对 于 wiki07 和 矩阵， 其 中 向 量化 的 性 
能 比 非 问 量化 的 SpMV 乘法 要 差 。 实 验 结果 表明 ， 问 量化 对 Intel Xeon Phi 协 处 理 器 上 的 性 
能 影响 很 大 ， 尤 其 是 小 矩阵 (例如 nd24k 和 s3dkt3m2 )， 其 中 线程 本 地 的 向 量 部 分 可 以 被 本 
地 缓存 所 容纳 。 


. Intel Xeon Phi SPMV 乘法 的 速度 
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Kl 27-12. 采用 向 量化 BICRS 的 部 分 分 布 式 方法 的 性 能 ， 其 中 4 种 可 能 的 分 块 大 小 为 1x8， 
2x4，4x2 以 及 8x1。 其 中 , 非 回 量化 部 分 分 布 式 方法 的 测试 结果 对 应 于 1 x 1 的 块 大 
小 。cage15 矩阵 缺少 1 x 8 分 块 的 性 能 值 ， 在 这 种 情况 下 ， 额 外 的 填充 导致 协 处 理 器 内 
存 不 足 ， 从 而 使 得 程序 无 法 成 功 运 行 
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对 应 不 同 块 大 小 的 填充 
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E 27-13 ”对 应 于 图 27-12 中 的 矩阵 和 块 大 小 的 相对 填充 。 所 展示 数据 是 显 式 增加 的 零 元 数量 与 原 
矩阵 中 所 包含 非 零 元 数量 的 比值 。cage15 和 矩阵 缺少 1x 8 分 块 对 应 的 数值 ， 这 是 由 于 增 
加 的 填充 (大约 是 2 倍 ) SRBC Hae ALTE AS AL 


图 27-17 所 展示 的 性 能 不 包括 预 处 理 所 需 的 时 间 。 对 于 部 分 分 布 式 方法 ， 预 处 理 的 开销 相 
对 于 构建 CRS 数据 结构 而 言 可 以 忽略 不 计 ， 因 为 后 者 需要 对 所 有 的 非 零 元 进行 排序 。 在 得 到 
实际 矩阵 结构 前 ， 确 定 对 所 有 可 能 块 大 小 的 填充 的 先 验 可 以 通过 对 输入 矩阵 的 一 次 过 有 历 完 

为 了 评估 上 面 所 讨论 的 各 种 优化 的 性 能 提升 ， 我 们 测量 了 OpenMP 版 本 的 CRS 格式 实 
现 的 性 能 ， 依 次 登 加 使 用 以 下 优化 。 

1. 部 分 分 布 式 的 4 矩阵 以 及 x 向量。 

2. 基于 希 尔 伯 特 曲 线 排序 的 缓存 无 关 稀 疏 和 矩阵 分 块 。 

3. 本 地 A 窍 阵 的 同 量化 BICRS 存储 。 

这 些 结 果 在 图 27-14 中 展示 。 





韭 向 量 比 BICRS 的 相对 填充 
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图 27-14 本章 讨 论 的 各 种 优化 方法 在 Intel Xeon Phi 上 带 来 的 性 能 提升 。 性 能 基准 是 OpenMP 版 
本 的 CRS 实现 ， 依 次 到 加 使 用 : 1) 部 分 数据 分 配 ,( 2 ) 基于 希 尔 伯 特 曲线 排序 的 稀 
iE METER, (3) 向 量化 BICRS 存储 


最 有 效 的 优化 手段 取决 于 矩阵 的 维度 以 及 类 型 。 例 如 ， 在 nd24k 矩阵 上 ， 部 分 数据 分 配 
和 分 块 不 能 提升 OpenMP 版 本 的 CRS 基准 程序 性 能 ， 而 向 量化 将 其 性 能 提升 了 约 5096. 与 
此 相反 ，adaptive 和 矩阵 上 的 主要 性 能 提升 来 自 于 部 分 数据 分 配 ， 而 对 于 cage15 和 矩阵， 其 主要 
性 能 提升 来 自 于 基于 希 尔 伯 特 曲 线 排序 的 分 块 以 及 向 量化 两 方面 因素 。 
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27.5.2 Intel Xeon 处 理 器 


另 一 个 测试 平台 是 一 个 双 插 权 CPU 处 理 锅 ， 它 包含 两 个 Intel Xeon E5-2690 v2 的 “Ivy 
Bridge EP” 处 理 器 。 每 个 处 理 器 包含 10 个 内 核 ， 每 个 内 核 配 备 了 32KB 一 级 缓存 以 及 
256KB 二 级 缓存 ，10 个 内 核 共 享 25MB 三 级 缓存 。 这 两 个 插 槽 连接 到 本 地 内 存 条 中 ， 共 计 
64GB 1600MHz 的 DDR3 内 存 。 因 此 最 大 带宽 达到 12.8GB/s 的 两 倍 。 

Ivy Bridge 处 理 需 文 持 256 位 寄存 器 的 向 量 指令 ， 因 此 当 采 用 双 精 度 浮 点 数据 时 ,1 = 4。 
但 是 AVX 不 支持 聚集 和 分 发 指令 ， 所 以 在 此 架构 上 的 向 量化 方案 很 可 能 比 Intel Xeon Phi 2X 
果 要 差 。 收 集 指 令 在 支持 AVX2 的 处 理 器 (Haswell 架构 ) 上 可 用 ， 而 分 发 指令 计划 在 AVX3 
中 支持 。 

实验 测试 采用 40 个 线程 ， 因 此 在 这 种 处 理 右 上 是 开启 超 线 程 功能 的 。 图 27-15 给 出 了 
双 插 槽 机 器 下 向 量化 SPMV 乘法 的 性 能 。 图 27-16 展示 了 各 种 优化 方法 在 此 架构 上 的 效果 。 


”向 量化 SpMV RARE, Ivy Bridge EP 
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图 27-15 采用 向 量化 BICRS 的 部 分 分 布 式 方法 的 性 能 ， 测 试 平台 为 双 插 权 Intel “ Ivy Bridge 
EP” 处 理 器 。 在 此 展示 了 每 个 可 能 的 分 块 大 小 (1x4,，2x2 和 4x1) 的 性 能 ， 并 与 非 
向 量化 的 BICRS (1x1) 性 能 结果 进行 了 对 比 
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图 27-16 AEC A TUE VE PRY HERES, WAFS AMR Intel " Ivy Bridge EP” 
处 理 器 。 性 能 基准 是 OpenMP 版 本 的 CSR 实现 ， 依 次 到 加 使 用 : (1 ) 部 分 数据 分 配 ， 
(2) 基于 和 硕 尔 伯 特 曲线 排序 的 稀 玻 矩阵 分 块 ，(3 ) 向 量化 BICRS 存储 


与 Intel Xeon Phi 处 理 伦 上 的 结 采 类 似 ， 每 种 优化 方法 的 优化 效果 在 很 大 程度 上 取决 于 
矩阵 的 大 小 以 及 类 型 。 然 而 ， 在 一 般 情 况 下 ， 回 量化 的 优化 效果 不 如 协 处 理 器 上 的 效果 显 
著 。 这 是 由 于 硬件 不 文 持 聚 集 和 分 发 指令 ， 以 及 SPMV 乘法 在 CPU 上 是 带宽 受 限 的 这 一 事 
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实 〈 并 非 是 和 协 处 理 需 一 样 的 延迟 受 限 )。 


27.5.3 性 能 比较 


图 27-17 在 Xeon Phi 上 将 向 量化 的 SpMV 性 能 与 以 下 其 他 方法 进行 了 对 比 : C1) 直接 
的 OpenMP 版 本 的 CRS 解决 方案 , (2) 使 用 非 向 量化 BICRS 的 部 分 分 布 式 解决 方案 ，( 3 ) 
Intel MKL 中 的 SPMV 乘法 代码 。 对 于 测试 集中 的 大 和 矩阵 ， 非 向 量化 的 部 分 分 布 式 算法 以 
及 MKL 的 SPMV 代码 性 能 明显 优 于 简单 的 基于 OpenMP 并 行 化 的 CRS 代码 。 指 令 向 量化 
显著 提升 了 部 分 分 布 式 算法 的 性 能 ， 且 超过 了 Intel MKL 中 CRS 格式 的 SpMV 乘法 的 性 能 ， 
其 中 一 个 例外 是 非 结构 化 的 wiki07 ER, 


Intel Xeon Phi 上 SpMV 乘法 的 速度 
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[d 27-17 在 Intel Xeon Phi 7120A 协 处 理 器 上 4 种 并 行 SPMV 乘法 实现 的 性 能 ， 共 使 用 60 个 内 
核 (240 个 线程 ) : (a) 启用 OpenMP 的 并 行 CRS,(b) 启用 MKL 的 并 行 CRS,(c) 使 
用 压缩 BICRS 的 部 分 分 布 式 方法 ,(d) 使 用 向 量化 BICRS 的 部 分 分 布 式 方法 


图 27-18 FE XGA “Ivy Bridge EP” 机 需 上 进行 了 类 似 的 性 能 对 比 。 回 量化 在 此 架构 上 
并 不 能 总 是 获得 较 好 的 性 能 ， 而 非 回 量化 的 部 分 分 布 式 方 法 性 能 优 于 其 他 优化 方案 ， 其 中 结 
构 化 的 s3dkt3m2 年 阵 是 个 例外 (该 矩阵 通过 回 量 化 获得 了 性 能 提升 ) 。 
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图 27-18 ÆU Ivy Bridge 机 器 上 启用 40 个 线程 测试 并 行 SPMV 实现 的 性 能 : Ca) 启用 
OpenMP 的 并 行 CRS, (b) 启用 MKL 的 并 行 CRS，(c) 部 分 分 布 式 BICRS，( d) 
部 分 分 布 式 的 向 量化 BICRS 


27.6 BS 


由 于 低 “ 浮 点 运算 - 字 节 ”比率 以 及 低 效率 的 缓存 使 用 ，SpMYV 乘法 获得 好 的 性 能 是 非 
常 困 难 的 。 对 于 Intel Xeon Phi 协 处 理 需 ， 一 个 额外 的 困难 是 高 延迟 的 内 存 访问 。 
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针对 共享 内 存 系统 上 的 并 行 SPMV 乘法 ， 本 章 讨论 了 几 种 最 大 化 数据 局 部 性 以 及 数据 
重用 的 优化 策略 。 和 集中 讨论 了 文 持 向 量化 操作 的 数据 结构 、 缓 存 无 关 的 任意 非 零 元 遍历 ， 以 
及 基于 分 块 的 高 级 压缩 存储 技术 。 还 对 共享 内 存 以 及 分 布 式 内 存 平台 上 的 并 行 方案 进行 了 


讨论 。 


实验 测试 在 Intel Xeon Phi 协 处 理 需 以 及 双 捅 槽 Ivy Bridge 两 个 共享 内 存 系统 上 进行 。 
PER AAA, FEEL A APSE CER T_T a. A Tn] AS 
方法 ， 性 能 超出 了 基于 CRS 的 OpenMP 版 本 的 算法 实现 以 及 Intel MKL 库 中 的 SpMV 代码 ， 
对 相同 编程 模型 的 优化 可 以 获得 两 个 处 理 器 架构 上 的 高 效 代码 。 
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28.1 通过 数据 重 排 提 高 缓存 局 部 性 


为 了 充分 利用 处 理 需 的 计算 能 力 ， 现 代 存 储 层 次 尽 最 大 可 能 高 效 和 及 时 提供 所 需 数 据 。 
但 是 如 果 程 序 中 的 数据 结构 忽略 缓存 时 性 能 会 如 何 呢 ?这 时 通常 需要 进行 数据 重 排 和 分 块 
(blocking 或 称 为 tiling)， 但 这 样 通常 会 生成 一 段 难 以 阅读 和 维护 的 代码 ， 并 且 与 菜 种 机 器 绑 
定 而 无 法 实现 性 能 可 移植 。 程 序 员 已 熟知 多 维和 矩阵 中 数据 的 存储 或 者 是 行 优先 格式 或 者 是 列 
优先 格式 ， 但 是 如 果 程 序数 据 的 访问 模式 非 这 两 种 情况 时 性 能 会 如 何 呢 ? 例如 程序 在 处 理 某 
个 元 素 时 需要 访问 其 相 邻 的 4 个 或 6 个 元 素 ， 而 非 一 整 行 的 16 个 元 素 ; 又 如 按 行 优 先 格式 
访问 按 列 优先 格式 存储 的 矩阵 ; 更 极端 的 情况 下 ， 需 要 在 不 同 的 方向 上 遍历 数据 ， 而 具体 顺 
序 依 赖 于 某 些 历史 计算 数值 。 当 缓存 无 法 容纳 程序 所 有 数据 时 ， 人 性 能 会 变 得 更 为 精 糕 。 

更 具 算 法 计算 特征 地 优化 多 维 数据 存储 方式 方面 已 经 有 很 多 工作 ， 数 据 的 访问 索引 计算 
十 分 复杂 并 且 需 要 特 丈 硬件 或 指令 来 验证 其 性 能 效果 。 

本 章 人 研究 映射 多 维 数据 到 一 维 并 保证 数据 局 部 性 的 方法 (包括 Morton 排序 和 Z 曲线 排 
序 )， 并 人 研 究 其 在 矩阵 转 置 和 和 矩 阵 乘 法 这 两 个 常用 的 线性 代数 问题 中 的 实际 效果 。 我 们 将 优 
化 矩阵 转 置 和 和 矩阵 乘法 代码 使 之 利用 Intel Xeon 处 理 咒 和 Intel Xeon Phi 协 处 理 器 ， 包 括 考 
虑 排序 、 回 量化 硬件 以 及 多 线程 等 特征 。 本 章 最 后 对 所 有 结果 进行 总 结 。 
28.2 性 能 改进 

性 能 改进 可 以 从 许多 方面 和 人手， 但 是 最 初 的 三 个 主要 问题 是 内 存 访问 、 向 量化 和 并 行 
化 ， 我 们 必须 在 这 三 个 方面 优化 到 极致 才能 获得 最 高 性 能 。 

当 所 需要 的 数据 位 于 缓存 中 时 ， 才 能 最 快 地 传输 到 CPU。 因 为 缓存 与 内 存 的 数据 交换 
是 以 缓存 行为 单位 的 (不 是 字 市 或 者 字 )， 所 以 如 果 程 序 所 需要 的 数据 位 于 不 同 的 缓存 行 ， 
即使 所 有 的 数据 都 位 于 缓存 中 ， 也 会 导致 性 能 下 降 。 

例如 Intel Xeon Phi 协 处 理 器 上 512 位 的 向 量 寄存 器 ， 一 个 缓存 行 (64 字 节 ) 可 以 填 满 整 
个 癌 量 寄存 右 ， 因 此 ， 一 次 缓存 读 操 作 可 以 加 载 16 个 单 精度 浮 点 数据 。 这 种 方式 十 分 高 效 ， 
但 是 必须 要 求 所 有 数据 均 位 于 一 个 缓存 行内 ， 否 则 ， 需 要 多 次 读 写 才 能 装 满 一 个 向 量 寄存 器 。 

并 行 化 也 是 高 效 利 用 处 理 需 性 能 的 必 选 项 。 如 果 设 计 了 一 种 有 效 的 数据 分 块 策略 ， 它 能 
有 效 提 高 数据 访问 性 能 并 利于 向 量化 实现 ， 那 么 通常 该 策略 也 能 提供 一 种 划分 计算 的 方式 使 
之 高 效 利用 人 硬件 的 多 线程 进行 并 行 处 理 。 

G. M. Morton 提出 了 Morton 排序 (也 成 为 Z 排序 或 Morton 编码 )， 通 过 交替 每 个 维度 
的 坐标 位 ， 能 将 多 维 数据 映射 到 一 维 并 保证 数据 的 局 部 性 。 图 28-1 所 示人 代码 展示 了 一 个 二 
维 示例 。 图 28-2 展示 了 一 个 8*8 二 维 网 格 的 Morton 排序 方法 ， 其 中 包括 4 个 4*4 子 块 。 在 
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行 优先 格式 下 ， 第 一 行 的 元 素 存 储 在 第 0 — 7 7 DERE E, 第 二 行 的 元 素 存储 在 第 8 — 15 个 
位 置 上 ， 依 次 类 推 。 但 是 在 Morton 排序 中 ， 能 够 有 效 保持 二 维 数据 的 局 部 性 ( 即 二 维 空间 
中 的 邻居 存储 在 一 起 )。 


//split x leaving a zero bit between each original bit 
dilate 1(int x) { 
8)) & OxOOffOOff; 
4)) & OxOfOfOfO0f; 
2)) & 0x33333333; 
1)9) & 0x55555555; 
return x; 
} 
//interleave row and column bits 


int zindex2d (int column, int row) { 


return (dilate 1 (row) <<1) |dilate_1(column) ; 


} 





图 28-1 从 行 、 列 索引 计算 Morton 索引 





图 28-2 8*8 二 维 网 格 的 Morton 排序 ， 细 分 为 4 个 4*4 TH 


另 一 个 关于 4*4 子 块 的 特性 是 ， 若 每 个 元 素 都 是 单 精度 浮 点 数据 (4 字 节 )， 则 这 16 个 
浮 点 数据 正好 可 以 存放 在 处 理 器 的 一 个 缓存 行 中 ， 或 者 是 协 处 理 器 的 向 量 寄存 器 中 ， 并 可 以 
通过 一 次 缓存 读 完成 数据 加 载 。 
28.3 RHE 

矩阵 转 置 即 实现 4*[i, 站 = AD, i], RE XC Af, A 28-3 展示 了 最 简单 的 实现 代码 。 
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这 一 简单 版 本 能 够 正确 实现 转 置 功能 ,但 是 由 于 在 内 层 循 环 中 频繁 变换 索引 位 置 ， 因 此 
在 内 存 中 非 顺序 地 访问 数据 ， 同 时 我 们 也 并 不 清楚 内 存 的 


对 齐 情况 。 编 译 器 也 不 会 对 该 循环 进行 向 量化 。 Se ae "ied 
使 用 Morton 排序 会 极 大 地 提升 性 能 。 考 虑 图 28-2 中 cog Du eig 
的 4 个 4*4 子 矩阵 ， 我 们 知道 实现 矩阵 转 置 可 以 通过 首先 at[j*N«i] = a[i*N«j]; 


转 置 每 个 子 和 矩阵 中 的 元 素 然 后 再 对 4 个 子 矩 阵 整体 做 转 置 } 
来 实现 。 由 于 每 个 子 和 矩阵 可 以 存放 在 一 个 缓存 行 中 ， 因 此 } 
程序 只 需要 4 次 缓存 读 操作 就 能 加 载 整个 8*8 矩阵 中 的 所 图 28-3 和气 阵 转 置 简单 的 实现 代码 
有 64 个 元 素 。 转 置 一 个 4*4 矩阵 值 需 要 重 排 一 个 缓存 行 

中 的 16 个 数据 ， 并 且 这 一 重 排 方法 对 所 有 4 个 子 矩 阵 是 相同 的 。 图 28-4 展示 了 一 个 4*4 转 
置 的 可 移植 实现 方式 。Intel Xeon Phi 协 处 理 器 可 以 通过 一 个 _ mm512 permutevar epi32 指 
令 来 实现 这 一 转 置 ， 如 图 28-5 所 示 。 





void transpose4x4 (float *a, float *at) { 
at [0] =a [0] ; 
at [1] =a [2] ; 
at [2] -a[1]; 
at: [3] sa [3] ; 
at [4]-a[8]; 
at [5] =a [10] ; 
at [6]-a[9] ; 
at[7]2a[11]; 
at [8] -a[4] ; 
at [9] =a [6]; 
at [10]-a[5]; 
at [11]=a[7]; 
at [12] =a [12] ; 
at [13] =a [14] ; 
at [14] =a [13] ; 
at [15] =a[15] ; 





图 28-4 fe 4*4 矩阵 的 代码 


void transpose4x4 (float *a, float *at) { 
| m512 oa; 
| m512 ta; 
_ m512i pate[0,2,1,3,8,10,9,11,4,6,5,7,12,14,13,15) ; 
oa- mm512 load Ps (a); 
ta= mm512 castsi512 PS ( 


_mm512 permutevar epi32(pat, mm512 castps si512(oa)) 
); 
_mm512 store ps(at,ta); 


} 





图 28-5 利用 Intel Xeon A E RAGE E 4*4 矩阵 代码 


AF Morton HA 49 HEE HE 371 


注意 ”为 了 保证 索引 的 简洁 性 ， 该 代码 要 求 矩 阵 大 小 是 4 的 倍数 并 且 存 储 空间 大 小 是 2 
的 圭 的 平方 。 一 般 情 况 下 可 以 放松 这 一 限制 ， 但 是 本 章 忽 略 加 边 (padding) 以 及 边 角 处 理 等 
WE « 

利用 较 大 规模 的 矩阵 比较 基于 Morton 排序 (图 28-6 ) 和 简单 实现 的 和 矩阵 转 置 (图 28-7 ) 
性 能 ， 可 以 看 到 在 Intel Xeon Phi HEIE E ( 见 图 28-8 ) 对 于 大 于 1024*1024 的 和 矩阵 规 
模 ， 单 线程 加 速 比 为 9 ; 在 244 个 线程 的 情况 下 ， 在 矩阵 规模 小 于 16384*16384 的 情况 下 
Morton 排序 并 无 优势 。 


int main(int argc, char **argv) { 


int i,j,k,iad; 
int uad,lad; 
int N=8; 
int N4=N/4; 
float *a-(float *) mm malloc(N*N*sizeof(float),128); 
float *c-(float *) mm malloc(N*N*sizeof(float),128); 
for(is0; i«N; i««) ( 
for(j=0; j«N; j++) { 
iad=zindex2d (j,i); 
a[iad]-j«i*N; //dummy data 
) 
} 
for(i=0; i<N4; i++) { 
for(j=0; j«N4; j++) { 
uad-zindex2d(j,i); //offset of original submatrix 
lad=zindex2d(i,j); //offset of transpose submatrix 


transpose4x4 (&a[16*uad], &c[16*1ad]); 


} 
} 
_mm_free (a); 


_mm_free(c) ; 


} 





图 28-6 利用 Morton 排序 转 置 8*8 矩阵 


int main(int argc, char **argv) { 
int i,j,k,iad; 
int uad, lad; 
int N=8; 


if(argc»1) { 


N=atoi (argv [1] ); 
If(N>32768) N=32768; // limit size 


} 


// for now, N must be a multiple of 4 





图 28-7 ”利用 Morton 排序 和 OpenMP 多 线程 实现 一 般 矩 阵 转 置 的 代码 
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i=N/4; 
if (N>(i*4)) N=(i+1)*4; 
int N4=N/4; 


// for now, matrix size power of 2 


double 12=log(N) /log(2.0) ; 
int i12=(int)12; 
if(il2«12) il2+#+; 
int MSZ-pow(2,i12); 
printf ("N=%d; N/4=%d; msize=%d\n",N,N4,MSZ) ; 
float *a= 

(float *) mm malloc(MSZ*MSZ*sizeof(float),128); 
float *c- 

(float *) mm malloc(MSZ*MSZ*sizeof(float),128); 
int iv=0; 


// initialize faster as long as we're threading 





28-7 (5) 
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| 简单 实现 | Morton 简单 实现 
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0.0763 0.0066 11.60 0.0155 
bed fl Ea re 
9.18 



















16384 80.2921 | 8.9273 0.4316 0.3451 
32768 328.4720 | 35.7564 1.8124 0.7410 


图 28-8 Intel Xeon Phi 协 处 理 器 上 单线 程 和 多 线程 的 简单 矩阵 转 置 以 及 基于 Morton HF 
序 的 矩阵 转 置 性 能 ,第 2、3、5、6 列 的 单位 为 秒 


图 28-9 展示 了 Intel Xeon 处 理 器 性 能 结果 ， 单 线程 情况 下 ， 对 于 大 小 为 32768*32768 


的 矩阵 达到 2.6 倍加 速 ; 32 个 线程 的 情况 下 ， 对 大 部 分 规模 的 矩阵 都 有 性 能 提升 ， 最 大 加 速 
比 为 4。 
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pase Morton Hl] Morton ; 


0.0004 | 0.0003 0.0014 | 0.0037 


=| a 
mm 
"I 
da ia ho 
al d 
= 

lel 

= 









BS 
<= 
Eg 








8192 0.8254 0.5219 0.1156 | 0.1477 


16384 3.7540 1.7044 0.4316 | 0.3451 
32768 18.4287 | 6.8835 1.8124 | 0.7410 


图 28-9 Intel Xeon 处 理 需 上 单线 程 和 多 线程 的 简单 矩阵 转 置 以 及 基于 Morton 排序 的 和 矩 
阵 转 置 性 能 , 第 2、3、5、6 列 的 单位 为 秒 


28.4 FERRE 


和 矩阵 乘法 与 矩阵 转 置 算法 十 分 相关 ， 前 者 需要 对 第 一 个 抢 阵 每 行 与 第 二 和 矩阵 每 列 的 乘积 
进行 求 和 。 
给 定 一 个 大 小 为 M*L 的 矩阵 A 和 一 个 大 小 为 L*N 的 矩阵 及， 可 以 通过 下 面 的 代码 实现 
矩阵 乘法 C — A* B; 
for (i20; i<M; i++) 
for (j=0; j«N; j++){ 
sum-0; 
for (k=0; k<L; k++) 
sum += A[i,k]*B[k,j]; 
C[i,j] = A[i,k]*BIk,3]:; 
] 


这 种 简单 的 实现 代码 几乎 无 法 利用 数据 局 部 性 。 通 常 提高 性 能 的 方法 是 利用 某 种 分 块 方 
法 ， 因 此 可 以 考虑 利用 在 前 面 矩 阵 转 置 中 用 到 的 Morton 排序 方法 。 考 虑 矩阵 4 fll B 的 一 个 
4*4 分 块 ， 可 以 看 到 ( 见 图 28-10) 我 们 可 以 利用 两 个 子 块 计算 和 矩阵 C 的 部 分 元 素 的 部 分 数 
值 。 由 于 每 个 分 块 可 以 存储 在 一 个 缓存 行 中 ， 因 此 数据 访问 十 分 高 效 。 此 时 程序 需要 某 种 索 
引 位 置 的 模式 ， 但 是 这 种 模式 对 和 矩阵 4 和 B 的 每 对 子 矩 阵 都 是 一 样 的 。 

图 28-11 展示 了 利用 Intel Xeon Phi 协 处 理 需 内 置 函 数 实 现 4*4 矩阵 子 块 乘法 的 代码 。 

在 该 4*4 矩阵 子 块 乘 算法 的 外 围 ， 只 需要 增加 一 些 循环 使 之 遍历 矩阵 4 FAR BOY IT 
ARF IRM, HIERE C 4*4 子 块 的 计算 结果 进行 累加 。 为 了 简化 程序 ， 再 次 假设 矩阵 大 小 
E2 KR, FFA 4 的 倍数 。 由 于 每 个 4*4 子 块 的 结果 可 以 独立 计算 ， 因 此 类 似 和 矩阵 转 置 的 
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代码 ， 我 们 利用 OpenMP 在 循环 外 层 进 行 并 行 化 。 图 28-12 展示 了 最 终 的 程序 代码 。 注 意 ， 
#ifdef MIC AWF Intel Xeon Phi 协 处 理 器 的 内 置 函 数 ， 或 者 使 用 普通 的 C 语言 表达 式 。 


void zmatmul(float *a, float *b, float *c) { 
c[0]+=a[0] *b[0] «a[1] *b[2]«a [4] *b[8] »a[5] *b[10]; 
e[1]+=a[0] *b[1]+a[1] *b[3]*a [4] *b[9] *a[5] *b[11]; 

c[4] *-a[0] *b[4] «a[1] *b[6] +a [4] *b[12]«a[5]*b[14]; 
c[5] *2-a[0] *b[5]«a[1] *b[7]+a [4] *b[13]*a[5]*b[15]; 
c[2]*-a[2] *b[0] «a[3] *b[2] «a[6] *b[8] »a[7] *b[10]; 

c[3] +=a [2] *b[1]*a[3] *b[3] «a[6] *b[9] *a[7] *b[11]; 
c[6]+=a[2] *b[4] +a[3] *b[6] +a[6] *b[12]+a[7] *b[14] ; 
c[7]+=a [2] *b[5] «a[3] *b[7] +a[6] *b[13] *a[7] *b[15]; 
c[8]4-a[8] *b[0] «a[9] *b(2] +a[12] *b[8] »a[13] *b[10]; 
c[9] +=a [8] *b[1]+a[9] *b[3] «a[12] *b[9] *a[13] *b[11] ; 
c[12]+=a[8] *b[4] «a[9] *b[6]+a[12] *b[12]+a[13] *b[14] ; 
c[13])+=a[8] *b[5]+a[9] *b[7] +a[12] *b[13] *a[13] *b[15] ; 
c[10] +=a [10] *b[0)+a[11] *b(2]+a[14] *b[8]+a[15] *b[10] ; 
c[11]«-a[10] *b[1])+a[11] *b[3]+a[14] *b[9] *a[15] *b[11] ; 
c [14] +=a [10] *b[4]«a[11] *b[6]+a[14] *b[12]+a[15] *b[14] ; 
¢c[15]+=a[10] *b [5] +a [11] *b[7]+a[14] *b[13] *a[15]*b[15] ; 


} 
图 28-10 利用 普通 乘法 和 加 法 指令 实现 大 小 为 24*4 的 矩阵 乘 





void zmatmul(float *ain, float *bin, float *cout) { 

. m512 a,b,c; 

_m512 a0,a1,a2,a3; 

_m512 b0,b1,b2,b3; 

_m512i pa0-( 0, 0, 2, 2, 0, , 8, 8,10,10, 8, 8,10,10}; 
_m512i pa1-( 1, 1,3, 3, 1, ,9, 9,11,11, 9, 911,11): 

. m512i pa2={ 4, 4, 6, 6, 4, ,12,12,14,14,12,12,14,14]; 
_m512i pa3={ 5, 5, 7, 7, 5, ,:13:13,15,15,13,13,15,1 55 


_m512i pb0-( 0, 1, 0, 1,4, 5, 4, 5, 0, 1,0 
_m512i pb1={ 2, 3, 2, 3, 6, 7, 6, 7, 2, 3, 2, 3, 
_ m512i pb2-(8, 9, 8, 9,12,13,12,13, 8, 9, 8, 9,12,13,12,13}; 
. m512i pb3={10,11,10,11,14,15,14,15,10,11,10,11,14,15,14,15}; 


a- mm512 load ps(ain); 
b- mm512 load ps(bin); 
c- mm512 load ps(cout); 


a0- mm512 castsi512 ps( 

_mm512_permutevar_epi32(pa0, mm512 castps si512(a))); 
al= mm512 castsi512 ps( 

.mm512 permutevar epi32(pa1, mm512 castps si512(a))); 
a2- mm512 castsi512 ps( 

.mm512 permutevar epi32(pa2, mm512 castps si512(a))); 


a3- mm512 castsi512 ps( 
 mm512 permutevar epi32(pa3, mm512 castps si512(a))); 


b0- mm512 castsi512 ps( 
 mm512 permutevar epi32(pb0, mm512 castps si512(b))); 
b1- mm512 castsi512 ps( 
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 mm512 permutevar epi32(pb1, mm512 castps si512(b))); 
b2- mm512 castsi512 ps( 

.mm512 permutevar epi32(pb2, mm512 castps si512(b))); 
b3- mm512 castsi512 ps( 

.mm512 permutevar epi32(pb3, mm512 castps si512(b))); 


c- mm512 fmadd ps(a0,b0,c); 
c= mm512 fmadd ps(al,b1,c); 
c= mm512 fmadd ps(a2,b2,c); 
c- mm512 fmadd ps(a3,b3,c); 


.mm512 store ps(cout;c); 


) 





图 28-11 (£&) 


void zmatmul(float *ain, float *bin, float *cout) { 


#ifdef MIC  //use intrinsics if an Intel Xeon Phi coprocessor 


. m512 a,b,c; 

. m512 a0,al,a2,a3; 

. m512 b0,b1,b2,b3; 

. m512i pa0-( 0, 0, 2, 2, 0, 0, 2, 2, 8, 8,10,10, 8, 8,10,10}; 
m512i pai={ 1, 1, 3, 3, 1, 1, 3, 3, 9, 9,11,11, 9, 9,11,11}; 


2,12,14,14,12,12,14,14}; 
3,13,15,15,13,13,15,15}; 


_m512i pa2={ 4, 1 

5 1 
, 0, 1, 0, 1, 4, 5, 4, 5}; 
2, 


. m512i pa3={ 5, 


3 


2,2,0,0,2,2 
3,3, 1, 1, 3,3 
4, 6, 6, 4, 4, 6, 6, 
S7 75,5, 7, 4. 
1 5,4 


_m512i pb0={ 0, 1, 0, 1, 4,5,4,5 
. m512i pb1={ 2, 3, 2, 3, 6, 7, 6, 7, 2, 3, 2, 3,6, 7, 6, 7}; 

_m512i pb2={ 8, 9, 8, 9,12,13,12,13, 8, 9, 8, 9,12,13,12,13}; 
_m512i pb3={10,11,10,11,14,15,14,15,10,11,10,11,14,15,14,15}; 


a=_mm512_load_ps(ain); 
b=_mm512_load_ps(bin); 
c=_mm512_load_ps(cout); 


a0- mm512 castsi512 ps( 

.mm512 permutevar epi32(pa0, mm512 castps si512(a))); 
al- mm512 castsi512 ps( 

.mm512 permutevar epi32(pa1, mm512 castps si512(a))); 
a2- mm512 castsi512 ps( 

.mm512 permutevar epi32(pa2, mm512 castps si512(a))); 
a3- mm512 castsi512 ps( 

.mm512 permutevar epi32(pa3, mm512 castps si512(a))); 


b0- mm512 castsi512 ps( 

_mm512_permutevar_epi32(pb0, mm512 castps si512(b))); 
bl= mm512 castsi512 ps( 

.mm512 permutevar epi32(pb1, mm512 castps si512(b))); 
b2- mm512 castsi512 ps( 

.mm512 permutevar epi32(pb2, mm512 castps si512(b))); 
b3- mm512 castsi512 ps( 

.mm512 permutevar epi32(pb3, mm512 castps si512(b))); 


c- mm512 fmadd ps(a0,b0,c); 
c- mm512 fmadd ps(al,b1,c); 
c= mm512 fmadd ps(a2,b2,c); 
c- mm512 fmadd ps(a3,b3,c); 


.mm512 store ps(cout;c); 
#else 


图 28-12 完整 的 矩阵 乘法 代码 
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cout[0]+=ain[0]*bin[0]+ain[1]*bin[2]+ain[4]*bin[8]+ain[5]*bin[10]; 
cout[1]+=ain[0]*bin[1]+ain[1]*bin[3]+ain[4]*bin[9]+ain[5]*bin[11]; 
cout[2]+=ain[2]*bin[0]+ain[3]*bin[2]+ain[6]*bin[8]+ain[7]*bin[10]; 
cout[3]+=ain[2]*bin[1]+ain[3]*bin[3]+ain[6]*bin[9]+ain[7]*bin[11]; 
cout[4]+=ain[0]*bin[4]+ain[1]*bin[6]+ain[4]*bin[12]+ain[5]*bin[14]; 
cout[5]+=ain[0]*bin[5]+ain[1]*bin[7]+ain[4]*bin[13]+ain[5]*bin[15]; 
cout[6]+=ain[2]|*bin[4]+ain[3]*bin[6]+ain[6]*bin[12]+ain[7]*bin[14]; 
cout[7]+=ain[2]*bin[5]+ain[3]*bin[7]+ain[6]*bin[13]+ain[7]*bin[15]; 
cout[8]+=ain[8]*bin[0]+ain[9]*bin[2]+ain[12]*bin[8]+ain[13]*bin[10]; 
cout[9]+=ain[8]*bin[1]+ain[9]*bin[3]+ain[12]*bin[9]+ain[13]*bin[11]; 
cout[10]+=ain[10]*bin[0]+ain[11]*bin[2]+ain[14]*bin[8]+ain[15]*bin[10]; 
cout[11]+=ain[10]*bin[1]+ain[11]*bin[3]+ain[14]*bin[9]+ain[15]*bin[11]; 
cout[12]+=ain[8]*bin[4]+ain[9]*bin[6]+ain[12]*bin[12]+ain[13]*bin[14}]; 
cout[13]+=ain[8]*bin[5]+ain[9]*bin[7]+ain[12]*bin[13]+ain[13]*bin[15]; 
cout[14]+=ain[10]*bin[4]+ain[11]*bin[6]+ain[14]*bin[12]+ain[15]*bin[14]; 
cout[15]+=ain[10]*bin[5]+ain[11]*bin[7]+ain[14]*bin[13]+ain[15]*bin[15]; 
ttendif 


) 


int main(int argc, char **argv) ( 







int i,j,k,iad; 
int aad,bad,cad; 
int N=16; 


if(argc»1) { 
N-atoi(argv[1]); 
if(N>32768) N=32768; // max dim for now 









} 


izN/4; 
if(N>(i*4)) N=(i+1)*4; 






double 12=log(N)/log(2.0); 
int il2-(int)I2; 

if(il2«12) il2++; 

int MSZ-pow(2,il2); 

int N4=N/4; 


printf("N=%d; N/4=%d; msize=%d\n",N,N4,MSZ); 


// actual memory allocation must be power of 2 although N can be any // multiple of 4 
float *a=(float *) mm_malloc(MSZ*MSZ*sizeof(float),128); 
float *b=(float *)_mm_malloc(MSZ*MSZ*sizeof(float),128); 

float *c=(float *)_ mm, malloc(MSZ*MSZ"sizeof(float),128); 






int iv=0; 
#pragma omp parallel for private (i,j,iv,iad) 
for(i=0; i<N; i++) ( 
for(j=0; j<N; j++) { 

iv=j+i*N; 

iad=zorder2d_c2i(j,i); 

a[iad]-b[iad]-iv; //dummy data 
c[iad]=0; //initialize output array 










for(i=0; i<N4; i++) { 
#pragma omp parallel for private (aad,bad,cad,i,j,k) 
for(j=0; j<N4; j++) { 
cad=16*zorder2d_c2i(j,i); //offset for result block 
for(k=0; k<N4; k++) { 
aad=16*zorder2d_c2i(k,i); //offset for a block 
bad=16*zorder2d_c2i(j,k); //offset for b blocck 


图 28-12 (48) 
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zmatmul(&a[aad],&b[bad],&c[cad]); 
} 


} 
} 


_mm_free(a); 
_mm_free(b); 
_mm_free(c); 


} 





图 28-12 ( 续 ) 


在 Intel Xeon Phi fp Xb 38 2& E 3E F Morton 的 代码 的 性 能 结果 如 图 28-13 所 示 ， 和 矩阵 
维度 范围 从 256 到 32768。 与 简单 实现 对 比 ， 对 于 所 有 和 矩阵 大 小 具有 较 大 的 性 能 提升 ， 对 
512*512 以 及 更 大 的 矩阵， 加 速 比 超过 30。 

图 28-14 展示 了 Intel Xeon 处 理 器 上 的 性 能 结果 ， 基 于 Morton 排序 的 矩阵 乘法 性 能 在 
和 矩阵 规模 大 于 1024*1024 时 超过 简单 矩阵 乘法 算法 ， 并 且 在 更 大 规模 情况 下 可 达到 接近 30 
倍 的 加 速 比 。 











TIE 


32768 Too 1468 
long 


加 加 ini bod 
ui u ud bd 
32768 Too 3989 

long 


图 28-13 在 Intel Xeon Phi DMib3Egs L 244 个 线程 ”图 28-14 TE Intel Xeon 处 理事 上 32 个 线程 的 简 
的 简单 矩阵 乘法 以 及 基于 Morton 排序 的 单 矩 阵 乘法 以 及 基于 Morton 排序 的 矩 
矩阵 乘法 性 能 ,第 2、3 列 的 单位 为 秒 阵 乘法 性 能 ， 第 2、3 列 的 单位 为 秒 





28.5 总结 
ASA ST EA Y 25 — 8f Morton 排序 方法 ， 它 可 以 作为 常用 的 行 优先 格式 和 列 优 先 格式 多 维 
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用 示例 ， 实 验 结果 证 明了 该 方法 在 Intel Xeon Phi 协 处 理 器 以 及 Intel Xeon 处 理 器 上 的 高 效 
性 。 我 们 限定 了 和 矩阵 大 小 为 2 的 需 ， 并 且 只 处 理 单 精度 浮 点 数据 ， 但 是 可 以 利用 其 他 技术 处 
理 一 般 和 矩阵 ， 在 这 里 主要 介绍 Morton 排序 对 性 能 的 影响 。 

与 简单 矩阵 转 置 算 法 相 比 ， 对 于 和 矩阵 规模 大 于 256*256 的 矩阵， 基于 Morton HET BAR 
阵 转 置 算法 在 Intel Xeon Phi 协 处 理 亏 上 的 单线 程 性 能 加 速 比 可 达 9 倍 。 在 高 度 并 行 的 实现 
中 ， 例 如 在 244 个 线程 的 情况 下 ， 基 于 Morton 排序 的 算法 可 达 2 倍加 速 比 。 同 样 的 实现 在 
Intel Xeon 处 理 硕 上 单线 程 可 达 2 倍加 速 比 ， 在 32 个 线程 的 情况 下 可 达 4 倍加 速 比 。 

矩阵 乘法 能 够 获得 更 大 的 性 能 提升 ， 对 于 规模 大 于 512*512 的 和 抢 阵 而 言 ， 加 速 比 从 30 
到 40 不 等 。 由 于 和 矩阵 乘法 的 计算 密集 度 要 高 于 矩阵 转 置 ， 因 此 Morton 能 更 大 幅度 地 提升 代 
码 性 能 。 

基于 Morton 排序 的 算法 在 Intel Xeon Phi HARFER LJ J& Intel Xeon 4h38 2& E25] BE RE irs 
程序 性 能 ， 特 别 是 对 规模 较 大 的 和 矩阵， 这 均 归功 于 更 好 的 数据 局 部 性 。 由 于 处 理 器 具备 乱 序 
执行 能 力 ， 因 此 它们 可 以 有 效 隐 藏 延 返 。 当 前 协 处 理 器 是 顺序 执行 的 ， 因 此 它们 对 内 存 访问 
延迟 更 为 敏感 。 但 是 ， 对 于 规模 较 大 的 和 矩阵 而 言 ， 两 个 平台 上 的 程序 性 能 均 受 制 于 缓存 和 
TLB (translation look-aside buffer， 劳 路 转换 缓冲 区 ) 缺失 ， 因 此 按照 Morton 排序 重组 数据 ， 
使 得 一 个 缓存 行 的 数据 均 能 高 效 利 用 ， 可 以 有 效 降低 访问 缺失 率 。 

其 他 数据 结构 也 可 借鉴 Morton 或 者 其 他 能 够 保持 局 部 性 的 数据 映射 方法 ， 例 如 几何 模 
型 ， 光 栅 数 据 ， 其 他 离散 图 像 数 据 (基于 像素 的 图 像 、 视 频 、 动 画 、 地 形 、 地 震 数 据 )， 坐 
标 ， 数 据 库 表 ， 统 计数 据 以 及 其 他 数据 ， 并 且 该 方法 可 以 应 用 到 更 高 维 数据 中 ， 而 不 仅仅 是 
二 维 数据 。 

如 前 所 述 ， 在 利用 空间 填充 曲线 和 其 他 缓存 局 部 性 优化 方法 方面 已 经 存在 大 量 研究 工 
作 ， 本 章 最 后 提供 一 些 优秀 的 参考 文献 。 


28.6 ”更 多 信息 


下 面 是 一 些 与 本 章 所 述 研 究 相关 的 文献 。 
e Bader, M., 2013. Space-Filling Curves—An Introduction with Applications in Scientific 
Computing. Springer. l 


Chatterjee, S., Sen, S., 2000. Cache-Efficient Matrix Transposition. In: Proceedings of the 
Sixth International Symposium on High-Performance Computer Architecture (HPCA-6), 
pp. 195-205. 


Valsalam, V., Skjellum, A., 2002. A framework for high-performance matrix multiplication 


based on hierarchical abstractions, algorithms and optimized low-level kernels. Concurr. 
Comput. 14(10), 805-839. 
e 顺序 曲线 ，http:Wen.wikipedia.org/wiki/Z-order curve。 
e 解码 Morton 代码 ，http://fgiesen.wordpress.com/2009/12/13/decoding-morton-codes/。 
e 本 章 及 其 他 章 代 码 下 载 地 址 htp://lotsofcores.com. 
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深入 理解 计算 机 系统 ( 原 书 第 3 版 ) 


作者 : ies 兰 德尔 E a "741 REH 等 42. 978- 7-- 111- 54493- 73 E. 139.005 


理解 计算 机 系统 首选 书目 ，10 余 万 程序 员 的 共同 选择 
卡 内 基 - 梅 隆 大 学 、 北 京 大 学 、 清 华 大 学 、 上 海 交通 大 学 等 国内 外 众多 知名 高 校 选用 指定 教材 
从 程序 员 视 角 全 面 齐 析 的 实现 细 和 站， 使 读者 深刻 理解 程序 的 行为 ， 将 所 有 计算 机 系统 的 相关 知识 融会 贯通 
新 版 本 全 面 基 于 X86-64 位 处 理 器 


基于 该 教材 的 北大 “计算 机 系统 导论 ”课程 实施 已 有 五 年 ， 得 到 了 学 生 的 广泛 赞誉 ， 学 生 们 通过 这 门 课 程 的 学 习 
建立 了 完整 的 计算 机 系统 的 知识 体系 和 整体 知识 框架 ， 养 成 了 良好 的 编程 习惯 并 获得 了 编写 高 性 能 、 可 移植 和 健壮 的 
程序 的 能 力 ， 葛 定 了 后 续 学 习 操 作 系统 、 编 译 、 计 算 机 体系 结构 等 专业 课程 的 基础 。 北 大 的 教学 实践 表明 ， 这 是 一 本 
值得 推荐 采用 的 好 教材 。 本 书 第 3 版 采用 最 新 x86-64 架 构 来 贯穿 各 部 分 知识 。 我 相信 ， 该 书 的 出 版 将 有 助 于 国内 计算 机 
系统 教学 的 进一步 改进 ， 为 培养 从 事 系统 级 创新 的 计算 机 人 才 莫 定 很 好 的 基础 。 

一 一 梅 宏 中国 科学 院 院士 /发 展 中 国家 科学 院 院 士 


以 低 年 级 开设 “深入 理解 计算 机 系统 ”课程 为 基础 ， 我 先后 在 复旦 大 学 和 上 海 交 通 大 学 软件 学 院 主导 了 激进 的 教 

学 改革 …… 现 在 我 课题 组 的 青年 教师 全 部 是 首 批 经 历 此 教学 改革 的 学 生 。 本 科 的 扎实 基础 为 他 们 从 事 系 统 软 件 的 研究 
打下 了 良好 的 基础 …… 师 资 力 量 的 补充 又 为 推进 更 加 激进 的 教学 改革 创造 了 条 件 。 

一 一 减 斌 宇 ” 上海 交通 大 学 软件 学 院 院 长 
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计算 机 组 成 与 设计 : 硬件 /软件 接口 ( 原 书 第 5 版 ) 


作者 : [ 美 WA A. mer ISBN. 978-7-111 -50482— 5 定价 99. .00 元 


本 书 是 计算 机 组 成 与 设计 的 经 典 畅 销 教材 ， 第 5 版 经 过 全 面 更 新 ， 关注 后 PC 时 代 发 生 在 计算 机 体系 结构 领域 的 革 
命 性 变革 一 一 从 单 核 处 理 器 到 多 核 微 处 理 器 ， 从 串 行 到 并 行 。 本 书 特别 关注 移动 计算 和 云 计算 ， 通过 平板 电脑 、 云 体 
系 结构 以 及 ARM (移动 计算 设备 ) 和 x86 (AUB) 体系 结构 来 探索 和 揭示 这 场 技术 变革 。 


计算 机 体系 结构 : 量化 研究 方法 ( 英文 版 第 5 版 ) 


作者 : [ 美 ] John L. Hannessy S ISBN. 978-7-111-36458-0 定价 138. 00 元 


本 书 系统 地 介绍 了 计算 机 系统 的 设计 基础 、 指 令 集 系统 结构 ， 流 水 线 和 指令 集 并 行 技术 。 层 次 化 存储 系统 与 存储 
设备 。 互 连 网 络 以 及 多 处 理 器 系统 等 重要 内 容 。 在 这 个 最 新 版 中 ， 作 者 更 新 了 单 核 处 理 器 到 多 核 处 理 器 的 历史 发 展 过 
程 的 相关 内 容 ， 同 时 依然 使 用 他 们 广 受 好 评 的 “量化 研究 方法 ”进行 计算 设计 ， 并 展示 了 多 种 可 以 实现 并 行 ， 陛 的 技 
术 ， 而 这 些 技术 可 以 看 成 是 展现 多 处 理 器 体系 结构 威力 的 关键 ! 在 介绍 多 处 理 器 时 ， 作 者 不 但 讲解 了 处 理 器 的 性 能 ， 还 
介绍 了 有 关 的 设计 要 素 ， 包 括 能 力 、 可 靠 性 、 可 用 性 和 可 信 性 。 


本 书 译 自 原版 High Performance : 
Parallelism Pearls: Multicore and $^ 
Many-core Programming Approaches 

并 由 Elsevier 授 权 出 版 





局 性 能 并 行 球 现 多 核 和 众 核 编程 方法 


High Performance Parallelism Pearls Multicore and Many-core Programming Approaches 


本 书 将 使 为 Intel Xeon Phi 产 品 开发 高 层 并 行 性 ( 包括 最 优 编程 ) 更 加 简单 。Intel Xeon 和 Intel Xeon Phi 

系列 之 间 的 通用 编程 方法 对 整个 科学 和 工程 领域 都 是 有 利 的 ， 相 同 的 程序 可 以 实现 多 核 和 众 核 的 并 行 可 扩 
展 性 和 向 量化 

一 一 选 自 推荐 序 ，Sverre Jarp, CERN 


本 书展 示 了 如 何 借助 同 种 编程 方法 来 利用 处 理 颖 和 协 处 理 颖 上 的 并 行 性 ， 展 示 了 如 何 有 效 地 利用 配备 Intel 
Xeon Phi 协 处 理 器 和 Intel Xeon 处 理 器 或 者 其 他 多 核 处 理 器 的 系统 的 能 力 。 本 书包 括 多 个 行业 和 领域 ( 如 化 学 、 
工程 以 及 环境 科学 ) 中 成 功 的 编程 示例 。 每 一 章 都 包括 所 使 用 的 编程 技巧 的 详细 讲解 ， 并 且 展 示 了 在 Intel Xeon 
Phi 协 处 理 器 和 多 核 处 理 器 上 的 高 性 能 结果 。 这 些 示例 不 仅 展 示 了 这 些 高 性 能 系统 的 特征 ， 还 给 出 了 利用 这 些 新 
型 异 构 系 统 间 并 行 性 的 方法 。 


本 书 特色 
© 推动 一 致 的 基于 标准 的 编程 ， 展 示 多 核 处 理 器 和 Intel Xeon Phi 协 处 理 器 上 高 性 能 编码 的 细节 。 
e 涵盖 多 个 垂直 领域 的 示例 ， 展 示 真 实 应 用 代码 的 并 行 优化 。 
e 源 代码 可 供 下 载 ， 以 便于 未 来 进一步 研究 。 
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